简单爬虫实现1

最新推荐文章于 2021-12-03 09:09:20 发布

qq_33612402

最新推荐文章于 2021-12-03 09:09:20 发布

阅读量568

点赞数

分类专栏：常见小型程序与刷题

本文链接：https://blog.csdn.net/qq_33612402/article/details/85247670

版权

常见小型程序与刷题专栏收录该内容

19 篇文章 0 订阅

订阅专栏

1 使用python自带的urllib访问html网页
2 BeautifulSoup处理数据读取标签内容
网页会有限制，得到的网页代码不全

爬虫爬取数据可用模块…这样一来，工作量就集中在数据的处理上——筛选需要数据，去符号去语气词然后分词去停词再分析词频率…

命令行打开程序，python 绝对路径\文件名
cd位置是没有用哒

1.爬数据
import request from urllib
data = request.urlopen(‘url’).read().decode(‘utf-8’，‘ignore’)
ignore参数可以忽略转化异常
网页编码有多种，utf-8 gb2312 gbk,gb2132,gb18030等，源码里“charset = ”可以看到

requests可以自动检测编码，然后变量.encoding可以查看