爬虫
思路:
1伪装成电脑,手机端,让服务器不会封杀你,搞好cookie
2用beautifulsoup获取网站源代码,并可初步加工拿到对应标签的内容
3用re,即正则表达式对获取的信息进行进一步处理
4将信息进行筛选或直接存入文档xls或其他数据库
额外:
索引,维护,可视化,数据化
爬虫
思路:
1伪装成电脑,手机端,让服务器不会封杀你,搞好cookie
2用beautifulsoup获取网站源代码,并可初步加工拿到对应标签的内容
3用re,即正则表达式对获取的信息进行进一步处理
4将信息进行筛选或直接存入文档xls或其他数据库
额外:
索引,维护,可视化,数据化