1 使用python自带的urllib访问html网页
2 BeautifulSoup处理数据 读取标签内容
网页会有限制,得到的网页代码不全
爬虫爬取数据可用模块…这样一来,工作量就集中在数据的处理上——筛选需要数据,去符号去语气词然后分词去停词再分析词频率…
命令行打开程序,python 绝对路径\文件名
cd位置是没有用哒
1.爬数据
import request from urllib
data = request.urlopen(‘url’).read().decode(‘utf-8’,‘ignore’)
ignore参数可以忽略转化异常
网页编码有多种,utf-8 gb2312 gbk,gb2132,gb18030等,源码里“charset = ”可以看到
requests可以自动检测编码,然后 变量.encoding可以查看