爬虫
ShirleyQueen321
这个作者很懒,什么都没留下…
展开
-
scrapy爬取Tencent招聘信息
1.命令行创建一个scrapy工程scrapy startproject Tencent2.分析https://hr.tencent.com/position.php?腾讯招聘网站,发现每页显示10条招聘信息。我们通过爬虫获取(职位名称,职位类型,人数,地点,发布时间)的信息。所以我们要修改 items.py文件。。通过scrapy.Field()定义字段名。。import s...原创 2018-07-30 22:32:44 · 1569 阅读 · 1 评论 -
selenium爬拉勾网职位信息并保存到mongoDB数据库
import pymongofrom selenium import webdriverfrom lxml import etreeimport reimport timefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom s...原创 2018-08-22 18:23:03 · 505 阅读 · 0 评论 -
requests拉钩网职位爬虫
import reimport requestsfrom lxml import etreeheaders = { "Referer": 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=true&fromSearch=true&labelWords=&sugin...原创 2018-08-22 18:23:46 · 652 阅读 · 0 评论 -
tesseract识别验证码
安装pytesseract库import timeimport pytesseractfrom urllib import requestfrom PIL import Imagedef main(): url = "https://passport.lagou.com/vcode/create?from=register$refresh=1513082291955"...原创 2018-08-26 21:53:17 · 659 阅读 · 0 评论 -
基于selenium的12306抢票
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECc...原创 2018-08-26 21:48:24 · 1479 阅读 · 0 评论 -
windows安装tesseract-OCR及使用
tesseract是Python的一个OCR(光学字符识别)库首先下载tesseract的exe安装文件 https://github.com/UB-Mannheim/tesseract/wiki安装时可以将语言包选上(比如不选择的话,默认的只能解析英文)配置环境变量配置完成后:cmd输入命令 输入命令tesseract --list-langs 可以支持...原创 2018-08-26 17:20:01 · 15327 阅读 · 1 评论 -
requests电影天堂爬虫
from lxml import etreeimport requestsBASE_DOMAIN = 'http://dytt8.net'HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.34...原创 2018-08-15 18:06:06 · 4541 阅读 · 0 评论 -
使用requests库豆瓣电影爬虫
import requestsfrom lxml import etree# 1,将目标网站的页面抓取下来headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari...原创 2018-08-15 16:24:16 · 616 阅读 · 0 评论 -
使用Cookie访问需要登录的网页(人人网)
方法一:将网页上的Cookie信息提取出来。放到headers中。from urllib import request#1,使用cookie去请求大鹏主页dapeng_url="http://www.renren.com/880151247/profile"headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; ...原创 2018-08-15 11:33:11 · 1047 阅读 · 0 评论 -
requests发送请求处理不信任的SSL证书
如:加上verify=False参数就可以通过resp=requests.get("http://www.123.com",verify=False)原创 2018-08-15 14:56:03 · 3146 阅读 · 0 评论 -
requests使用代理,session共享cookie
使用代理:在请求方法中,传递proxies参数就可以了import requestsproxy = { 'http': '123.9.149.25:8118'}response = requests.get("http://httpbin.org/ip", proxies=proxy)print(response.text) 输出结果:{ "origin":...原创 2018-08-15 14:35:42 · 7173 阅读 · 0 评论 -
即将过期的Cookies信息保存下来
from urllib import requestfrom http.cookiejar import MozillaCookieJarcookiejar = MozillaCookieJar('cookie.txt')# ignore_discard将即将过期的Cookie信息保存下来,加载出来cookiejar.load(ignore_discard=True)handler ...原创 2018-08-15 12:54:48 · 202 阅读 · 0 评论 -
scrapy抓斗鱼主播的图片
1.该项目通过此网站获取信息http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset=0打开是这样子的,(如果现实乱码,安装Chrome插件jsonview)我们只取 nickname 昵称,vertical_src主播照片这两条信息2.创建项目:命令行输入scrapy startproject ...原创 2018-08-02 20:55:05 · 496 阅读 · 0 评论 -
ProxyHandler处理器(代理)
1.代理的原理:在请求目的服务器之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后再转发给我们的代码2.http://httpbin.org:这个网站可以方便查看http请求的一些参数3.在代码中使用代理: a.使用urllib.request.ProxyHandler b.传入一个代理,这个代理是一个字典,字典的key依赖于代...原创 2018-08-14 22:07:11 · 1774 阅读 · 0 评论 -
Request爬取拉勾网信息
首先, 拉勾网是一个典型的难以爬取信息的网站。是因为此网站包含robot协议,获取爬取请求做限制。导致无法顺利爬虫。另外,职位信息是Ajax文件加载进来的,单纯了通过源码获取不到信息。下面就开始对网站进行分析:1.随意搜索一个职位,比如我搜索Python,下面对应出来很多Python的职位信息。。 比如:第一个Python的职位叫“Python开发工程师”,此时我们右键查看源码...原创 2018-08-14 18:47:49 · 1623 阅读 · 0 评论 -
scrapy爬取itcast网站的的教师信息
1.命令行创建项目scrapy startproject itcast2.编写items.pyimport scrapyclass ItcastItem(scrapy.Item): # define the fields for your item here like: # 老师的姓名 name = scrapy.Field() # 老师的职...原创 2018-07-31 10:30:59 · 1778 阅读 · 5 评论 -
Python 中英文混输格式对齐问题
Python中使用str.format进行格式化输出format使用方法较多,这里只说明其在填充与对齐上的使用方法:填充与对齐填充常跟对齐一起使用^、<、>分别是居中、左对齐、右对齐,后面带宽度:号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充ulist.append([1,"清华大学","10" ]) ulist.append([2,"中国科学...原创 2018-07-24 18:10:18 · 798 阅读 · 0 评论 -
selenium爬虫boss直聘
import timefrom selenium import webdriverfrom lxml import etreefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.suppo...原创 2018-08-24 18:13:15 · 838 阅读 · 0 评论