如何用模块:
先导入import 模块名
或者import模块名.函数名
自带核心模块:
【os】
主要用于系统文件操作:
os.listdir(string 路径)读取目录下所有文件名,返回为string 的list
【shutil】
文件移动
shutil.move(
string 原路径,string 目标路径)移动文件
【re】
正则,字符串模式匹配
分词后提取单词,不要' '和'\n':re.match('[a-zA-Z]+$')
【shutil】
定义任意类,保存对象,读取对象
【pickle】
定义任意类,保存对象,读取对象
pickle.dump(对象, 文件路径和文件名)
下载安装模块:
【nltk】
【jieba】
test.py文档:
http://www.boyunjian.com/v/softd/jieba.html
安装:把jieba目录放在 D:\Python27\lib\site-packages下
【beautifulsoup】
beautifulsoup
- 用来处理html,不符合规范的html也可以被理顺,可以按照标签抓取
- soup.find_all('div',{class,"articleBody"})
- http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/ http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 中文介绍
- http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/ 安装了3.0.6
【chardet】
编码:chardet.detect(文本对象)['encoding']返回编码,可能是GB2312(gbk),ascii,utf-8,windows***