爬虫
文章平均质量分 92
GGBOND_4892
大数据
展开
-
BeautifulSoup4 css选择器选中一个html标签的class属性拥有多个值的标签
最近在学习bs4时遇到一个问题如果一个标签的class属性拥有多个值我们应该如何精确的选中它呢我只需要第一个div里的内容查阅了相关资料后找到了解决办法我们可以使用soup.select_one()方法返回第一个div里的内容但是这个div的class属性有两个值’e’ ‘e4’我们可以将两个属性都传入css选择器中soup.select_one('div.e.e4')这样就可以精确...原创 2019-02-26 20:15:46 · 7015 阅读 · 0 评论 -
scrapy命令行入门学习
Command line tool:其中全局命令可以不用进入项目使用项目命令必须进入项目使用Windows 下创建一个scrapy项目:打开cmdscrapy createproject 项目名如果你想在指定目录创建项目后面可以加上项目路径如:scrapy createproject myproject c:\\scrapycode或者是直接进入项目路径直接创建:c:cd ...原创 2019-03-11 19:22:51 · 188 阅读 · 0 评论 -
requests+bs4+正则爬取前程无忧招聘信息进阶版
整理思路获取所有职位信息的url通过正则去掉不符合要求的url爬取详情页信息解析详情页写入txt文件循环抓取提高速度多线程爬取先放上url:https://search.51job.com/list/000000,000000,0000,00,9,99,+,2,1.htmlurl的最后“1.html”中的1是指第一页第二页就是2.html以此类推我们可以使用一个变量替代实现循...原创 2019-03-24 13:43:26 · 1724 阅读 · 3 评论 -
python 爬取NBA中国官网球员数据
现在很多网站的数据都是通过Ajax动态加载的,我认为这恰恰降低了我们爬取的难度,因为我们无需考虑如何解析数据,只需要将json文件转换为字典形式,通过字典的键就可以取得我们所需要的数据。爬取网站:NBA中文官网用到的库:requests、json思路:分析页面找到保存有球员名字的json文件解析json文件获取球员名字获取保存球员数据的json文件解析json文件获取有用的数据将...原创 2019-04-26 20:32:22 · 4808 阅读 · 4 评论