简单爬虫实现1

1 使用python自带的urllib访问html网页
2 BeautifulSoup处理数据 读取标签内容
网页会有限制,得到的网页代码不全

爬虫爬取数据可用模块…这样一来,工作量就集中在数据的处理上——筛选需要数据,去符号去语气词然后分词去停词再分析词频率…

命令行打开程序,python 绝对路径\文件名
cd位置是没有用哒

1.爬数据
import request from urllib
data = request.urlopen(‘url’).read().decode(‘utf-8’,‘ignore’)
ignore参数可以忽略转化异常
网页编码有多种,utf-8 gb2312 gbk,gb2132,gb18030等,源码里“charset = ”可以看到

requests可以自动检测编码,然后 变量.encoding可以查看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值