大体步骤:获取网页--解析网页--存储数据
具体解释:
- 获取网页:给网址发送请求,网址返回所有数据。
- 解析网页:将得到的数据进行分析,搜索提取想要的数据。
- 存储数据:存储索要的数据。
各自技术:
- 获取网页:urllib,requests,selenium,使用服务器抓取,登入抓取,突破IP禁封和多进程多线程抓取等。
- 解析网页:beautifulsoup,re正则表达式,lxml和解决中文乱码等。
- 存储数据:存储txt/csv文件,存入数据库等。
大体步骤:获取网页--解析网页--存储数据
具体解释:
各自技术: