![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python简单爬虫
chibuqikendeji
这个作者很懒,什么都没留下…
展开
-
【Python爬虫】爬取网页版网易云首页歌单信息,并将信息存入指定Excel表
在看完入门级讲解之后,不知道要干什么,看到一个群里的大佬说python的方向,就先想着学一下爬虫。刚好在听歌,就想着把歌单弄下来,然后就开始我的纠结之旅。在和度娘的无数次交流和自己的多次懵逼排错中,这个代码总算是出来了,实现了效果,但是就是速度有点慢。话不多说,上代码# coding:utf-8import urllib.requestimport urllibimport re...原创 2018-07-26 19:14:24 · 728 阅读 · 0 评论 -
【Python爬虫】爬取京东手机名字和价格(搜索的第一页),存入Excel表
在爬取了网易云歌单之后,在网上找各种爬虫实战,然后就觉得这个简单一点,然后就开始了我的懵逼之路。这个代码只是爬取搜索出来的信息的第一页,后续会学习爬取下一页,还有添加京东首页搜索能力,现在就先写着第一页,大佬看一下:import requestsimport refrom bs4 import BeautifulSoupfrom selenium import webdriverfr...原创 2018-07-29 18:04:32 · 2395 阅读 · 0 评论 -
【Python爬虫】模拟进入京东首页输入手机进行搜索,并爬取搜索出来的手机信息(可自动进入下一页)
昨天爬取了第一页的手机信息之后,想着能不能只模拟浏览器进入京东首页,然后通过自动输入手机,然后搜索出商品网页,然后自动进行爬取,而且不仅仅爬取第一页,实现自动翻页,爬取。然后,在各种找资料和多次调试后,得到了下面这个代码。由于我暂时还没有学数据库,所以在下面的代码中,并没有把所有的手机信息全部爬取,只是爬取了四个网页,存入Excel表中。上代码:from bs4 import Beautif...原创 2018-07-30 16:48:52 · 784 阅读 · 0 评论 -
【Python爬虫】使用selenium模块模拟浏览器行为爬取豆瓣电影top250
使用selenium模块模拟浏览器行为访问豆瓣电影top250页面,然后爬取第一页内容之后,模拟点击下一页,从而获取接下来的网页的html代码,并且进行内容筛选。筛选出排名,名字,播放地址,导演和主演,评价数,评分和电影简介。具体实现代码如下(代码中有注释,就不一一拆分解释了):from bs4 import BeautifulSoupfrom selenium import webdri...原创 2018-08-03 10:17:04 · 1541 阅读 · 0 评论 -
【Python爬虫】获取Ajax加载方式的数据(简易版)
在使用urllib2或者requests爬取网页时,碰到了问题,网页的数据是通过Ajax方式加载的,返回的html代码和网页开发者调试中显示的内容不一致,类似于下面这样上面第一张是开发者选项中的源码,下面这是requests返回的html代码,明显不同。所以通过requests是无法准确筛选出我们需要的信息。这时候我们就需要通过POST方式获取到服务器发送的json信息,然后进行筛...原创 2018-08-10 10:12:46 · 2581 阅读 · 4 评论 -
【Python爬虫】Scrapy模块案例:爬取腾讯招聘网基本信息
Scrapy模块是一个很好用的模块,功能强大。最近在学习使用scrapy模块,写了一点小东西,爬取腾讯招聘网的基本信息。scrapy项目步骤:1. 创建项目:scrapy startproject xxx2. 编写items.py文件,用于设置需要保存的字段内容3. 编写爬虫文件4. 运行爬虫 scrapy crawl xxx第一步:创建项目,创建完成,目录如下第二...原创 2018-08-29 11:15:21 · 800 阅读 · 1 评论