python爬虫入门教程
1.网络爬虫
1.定义:网络蜘蛛,网络机器人,抓取网络数据的程序
2.总结:用python程序去模仿人去访问一个网站,模仿的越逼真越好
3.爬取数据的目的:通过有效的大量数据分析市场走势,公司决策
1.企业获取数据的方式
1.公司自由数据
2.第三方数平台购买
数据堂。贵阳大数据市场
3.爬虫爬取数据
市场上没有或者价格太高,利用爬虫程序爬取
3.python做爬虫的优势
请求模块,解析模块丰富成熟,强大的scrapy框架
PHP:对多线程,异步的支持不太好
JAVA:代码笨重,代码量很大
C/C++:虽然效率高,但是代码成型慢
4.爬虫的分类
1.通用网络爬虫(搜索引擎使用,需要遵守robots协议)
https://www.bilibili.com/robots.txt
1.搜索引擎如果获取一个新网站的URL
1.网站主动向搜索引擎提供(百度站长平台)
2.和DNS服务商(万网),快速收录新网站
2.聚焦网络爬虫
自己写的爬虫程序,面向主题的爬虫,面向需求的爬虫
爬虫 反爬虫 反反爬虫
5.爬虫爬取数据步骤
1.确定需要爬取的URL地址
2.通过HTTP/HTTPS协议来获取相应的HTML对象
3.提取HTML页面里有用的数据
1.所需要的数据,保存()
2.页面中有其他的U