python基础-资料整理_已迁移

最新推荐文章于 2025-11-02 22:13:21 发布

转载最新推荐文章于 2025-11-02 22:13:21 发布 · 107 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/Majw/blog/600199

文章标签：

#python

本文详细介绍了Python中处理网页数据时遇到的HTML转义符问题及解决方法，包括HTML实体转换、URL编码处理和字符编码的判断与转换。同时，还涉及了Python字符串操作的基本语法和函数应用。

为什么80%的码农都做不了架构师？>>>

python

模块安装 python -m pip install chardet

基本语法

字符串连接(如果是整型就会做加法) +

函数

字符串处理

'abc'.upper() # 就字母转成大写
isinstance(x,str) #判断是否为字符串
type(str)         #获取变量类型

HTML实体转换

抓网页数据经常遇到例如&gt;或者&nbsp;这种HTML转义符，抓到字符串里很是烦人。
比方说一个从网页中抓到的字符串
html = '&lt;abc&gt;'
用Python可以这样处理：
import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'
如果还想转回去，可以这样：
import cgi
html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'

把字符转成url编码

urllib.quote("这是中文")

字符编码处理

import sys       #引用sys模块进来，并不是进行sys的第一次加载
reload(sys)      #重新加载sys
sys.setdefaultencoding('utf8')  #调用setdefaultencoding函数

print sys.getdefaultencoding()  #获取系统默认编码

通过模块方式来获取字符编码

import chardet
chardet.detect(str)

编码的判断

isinstance(s, unicode) #用来判断是否为unicode

通过函数转换编码

chardet.detect(article[0]).get('encoding','utf-8')

数学函数-模块

range(1,100) #生成之间数  注意: range(1, 100, 2) 可以生成list [1, 3, 5, 7, 9,...]

math模块

math.sqrt #开方

列表函数-list

L.append(x * x) #向列表里增加元素

词典函数-dict

转载于:https://my.oschina.net/Majw/blog/600199