爬虫
hp_cpp
这个作者很懒,什么都没留下…
展开
-
python2.7.x+request+xpath爬取腾讯招聘信息
依然采用是requests和xpath,因为是简单爬虫的入门教程,边学边记录。 腾讯招聘的url是https://hr.tencent.com/position.php 点击下面的第2页,得到url:https://hr.tencent.com/position.php?&start=10#a 再点击第一页,得到url:https://hr.tencent.com/position.php...原创 2018-12-08 13:54:43 · 386 阅读 · 0 评论 -
python2.7.x+requests+正则表达式爬取古诗网诗词
这次用正则表达式进行爬取 链接地址:https://www.gushiwen.org/default_1.aspx 同样是爬取前7页的数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests import re def parse_page(url): headers = { 'User-Agen...原创 2018-12-08 15:31:35 · 349 阅读 · 0 评论 -
python2.7.x+requests+正则表达式爬取《糗事百科》段子
糗事百科url为https://www.qiushibaike.com/text/page/1/ 其中后面的/1/表示第几页,这里只爬取前面7页,具体看下面的代码。 (在chrome浏览器中,利用开发者工具,查看到的元素和在pycharm中requests.get请求下来的网页不一样,标签变了,导致按照视频教程的正则匹配不到。于是,自己在pycharm中查看标签,重新写正则匹配式。) #!/usr...原创 2018-12-08 17:51:22 · 257 阅读 · 0 评论 -
pytho2.7.x+requests+xpath爬取电影天堂
python2.7.x,和python3.x处理中文乱码方式不一样。遇到问题就百度,遇到python2的中文乱码问题可以参考这几篇博客: https://blog.csdn.net/hp_cpp/article/details/80953508 https://blog.csdn.net/hp_cpp/article/details/80997208 https://blog.csdn.net/h...原创 2018-12-06 10:11:41 · 2302 阅读 · 0 评论