Python爬虫
bxg1065283526
希望现在开始为时不晚,努力一定会有收货
展开
-
爬虫实战----scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 ...原创 2018-04-04 16:28:09 · 303 阅读 · 0 评论 -
几个爬虫小实例
学习北理的爬虫课,其中几个实例自己实现了一下,打一下基础:1.京东商品页面的爬取:这个小例子采用的是爬取的通用框架,利用requests库,根据url获得页面的信息,利用try...except句式保证网络连接成功,若访问不成功返回失败信息,其中采用了raise_for_status()函数,即若状态参数不是200的话,会返回一个异常信息,except会捕捉这个异常信息。利用apparent_en...原创 2018-04-05 20:04:40 · 380 阅读 · 0 评论 -
定向爬虫---中国大学排名
要想进行定向爬虫首先要保证我们爬取的内容存在于网页的HTML代码内,因为有些网页使用JavaScript生成的,我们无法爬取。该例子的实现步骤分为下面三步: 1.从网络上,通过URL获得大学排名的网页内容---getHTMLText() 2.提取网页内容中的信息到合适的数据结构内----fillUnivList() ...原创 2018-04-05 23:03:57 · 218 阅读 · 0 评论 -
定向爬虫---淘宝商品信息
利用requests库以及re正则表达式库对淘宝的商品信息进行爬取。主要是对HTML页内的内容进行搜索,一种是之前用BeautifulSoup进行搜索,这里利用正则表达式直接进行匹配搜索。观察到淘宝页面的搜索直接是URL+商品名称,跨页面是在其后&s=44的倍数import requests import re #爬取页面的通用框架 def getHTMLText(url): tr...原创 2018-04-06 14:20:39 · 474 阅读 · 0 评论 -
定向爬虫---股票数据
1.目标获得上交所和深交所所有股票的名称和交易信息,输出到文件内2.技术路线采用requests库和BeautifulSoup库以及正则表达式re库网站选择原则: 股票信息静态存在于html页面中,非js代码生成,没有Robbts协议限制。选取方法: 打开网页,查看源代码,搜索网页的股票价格数据是否存在于源代码中。3.数据网站的确定新浪股票在页面上看到的股票代码在源代码中并没有,说明很可能是由Ja...转载 2018-04-06 18:37:39 · 485 阅读 · 0 评论