![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
右手画诗
这个作者很懒,什么都没留下…
展开
-
python爬虫学习-爬取豆瓣短评第一页并存储为csv
操作系统:windows 10软件:Anaconda spyder需求:爬取豆瓣某书的短评第一页内容import requestsr=requests.get('https://book.douban.com/subject/1084336/comments/').textfrom bs4 import BeautifulSoupsoup=BeautifulSoup(r,'l...原创 2019-02-22 18:57:01 · 985 阅读 · 0 评论 -
python爬虫学习-使用pandas保存内容到本地
1、在学习pandas用法之前,了解过with open的用法,代码参上:import requestsfrom lxml import etreeurl='https://book.douban.com/subject/1882933/comments/'r=requests.get(url).texts=etree.HTML(r)file=s.xpath('//*[@id=...原创 2019-02-27 18:17:09 · 3752 阅读 · 0 评论 -
python爬虫学习-if __name__=='__main__'遇到的问题
跟着网上的教程学习python,有时候老师如果水平不够,或者讲得不够清楚,那么还真的会耽误很多时间去查找资料。就比如说,我这两天遇到的if __name__=='__main__'总是报错:invalid syntax在我核对了教程和我的内容之后,还是不知道错在哪里了,于是只能去网上翻资料,最终,我终于发现问题在哪里了我原本写的:if_name_=='_main_' 聪明的你有没有发...原创 2019-02-26 13:56:52 · 10451 阅读 · 14 评论 -
网贷之家 python 爬取公开的平台数据
初学python爬虫,仅用学到的几个库尝试爬取网贷之家的平台信息数据,并保存到excel中。爬取的过程中遇到了各种各样的问题,通过各种查资料最终解决,但是感觉自己的代码不够简洁,可能是学的东西还是太少吧。要爬取的页面:https://www.wdzj.com/dangan/要爬取的数据:平台名称、评级、参考利率、待还余额、注册地、上线时间、网友印象、综合评分代码如下:impo...原创 2019-03-21 12:00:16 · 3135 阅读 · 2 评论 -
python爬虫学习-初探scrapy 遇到的一个坑
python学习终于来到了scrapy这一部分了,感觉有点复杂,一开始学习了关于scrapy的安装、项目创建、爬虫创建等知识。在实操一个简单爬虫案例的时候,遇到了一个小问题,通过详细分析输出结果才发现了问题,在此记录一下,也给其它遇到相同问题的小伙伴提供一个解决思路。先说下遇到问题的spider代码吧import scrapyclass SpiderCity58Spider(s...原创 2019-04-17 16:17:52 · 217 阅读 · 2 评论 -
python爬虫学习-scrapy爬取链家房源信息并存储(翻页)
爬取链家租房频道的房源信息,含翻页,含房间详情页的内容爬取。items.pyimport scrapyclass ScrapytestItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field()#房源名称 price = scrapy.Field()...原创 2019-05-13 18:48:27 · 1226 阅读 · 0 评论 -
python爬虫学习-scrapy爬取链家房源信息并存储
爬取链家租房页面第一页的房源信息,获取内容包括:标题、价格、URLitems.pyimport scrapyclass ScrapytestItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() price = scrapy.Field()...原创 2019-05-06 17:47:11 · 990 阅读 · 0 评论 -
python爬虫学习-scrapy爬取拉勾职位信息并存储(xpath方法)
拉勾作为爬虫学习必被骚扰的网站,反爬策略做的还是很厉害的。爬取拉勾数据运营相关职位信息,有两种方式:一种是通过搜索“数据运营”,这时页面是通过json来传递数据另一种是直接在首页点击“数据运营”标签,这时页面是直接代码渲染出来的,可以采用xpath方法来爬取数据,本文就是采用这种方式。通过分析页面,我们要爬取的数据包括如下几个方面:职位名称、地址、公司名称、工资范围、经验学历、公司...原创 2019-05-16 14:51:00 · 436 阅读 · 0 评论