【python学习笔记】web文本抓取时用到的模块盘点

最新推荐文章于 2020-12-21 11:54:31 发布

Sidney_VonWunderland

最新推荐文章于 2020-12-21 11:54:31 发布

阅读量693

点赞数

分类专栏：【学习笔记】Python系列文章标签： python 网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sindy_Jen/article/details/44726563

版权

【学习笔记】Python系列专栏收录该内容

6 篇文章 0 订阅

订阅专栏

如何用模块：

先导入import 模块名

或者import模块名.函数名

自带核心模块：

【os】

主要用于系统文件操作：

os.listdir(string 路径)读取目录下所有文件名，返回为string 的list

【shutil】

文件移动

shutil.move( string 原路径,string 目标路径)移动文件

【re】

正则，字符串模式匹配

分词后提取单词，不要' '和'\n'：re.match('[a-zA-Z]+$')

【shutil】

定义任意类，保存对象，读取对象

【pickle】

定义任意类，保存对象，读取对象

pickle.dump(对象, 文件路径和文件名)

下载安装模块：

【nltk】

【jieba】

在线演示： http://jiebademo.ap01.aws.af.cm/

test.py文档： http://www.boyunjian.com/v/softd/jieba.html

安装：把jieba目录放在 D:\Python27\lib\site-packages下

文本自动分类！ http://blog.csdn.net/lifeitengup/article/details/12287987

【beautifulsoup】

beautifulsoup

用来处理html，不符合规范的html也可以被理顺，可以按照标签抓取
soup.find_all('div',{class,"articleBody"})
http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/ http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 中文介绍
http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/ 安装了3.0.6

【chardet】

编码：chardet.detect(文本对象)['encoding']返回编码，可能是GB2312(gbk)，ascii，utf-8，windows***

Sidney_VonWunderland

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【python学习笔记】web文本抓取时用到的模块盘点

在制作网络爬虫、进行文本分析时，用到的模块
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。