爬虫
文章平均质量分 73
sixkery
在写 Java
展开
-
python爬取糗事百科
闲来无事,找点段子一乐呵,就逛到糗事百科,这次爬取没有什么难度,唯一值得说道的是增加了一点点的代码健壮性。import requestsfrom lxml import etreeclass Spider(): def __get_page(self,url,headers): try: response = requests.get...原创 2018-08-14 20:51:55 · 180 阅读 · 0 评论 -
scrapy突破反爬的几种方式(三)
一些小的技巧配置,让我们的爬虫被识别的概率降低。cookies 的禁用在settings.py 文件中有一个参数是:COOKIES_ENABLED = False默认情况下是禁用的,request 就不会把 cookies 带进去。在一些不需要登录就能访问的网站来说,这种方式是很好用的。限速scrapy 默认情况下在下载网页的空隙是 0 的,也就是返回一个页面,立刻就去...原创 2018-09-17 09:47:09 · 415 阅读 · 0 评论 -
scrapy对接selenium并设置selenium不加载图片
在 middlewares.py 文件中添加:from selenium import webdriverimport timefrom scrapy.http import HtmlResponseclass JSPageMiddleware(object): # 通过selenium对接scrapy实现动态页面的爬取 def process_request(se...原创 2018-09-18 20:06:31 · 773 阅读 · 1 评论 -
selenium 爬取拉勾
用到的知识点:selenium 显式等待 两个窗口的切换'''用selenium爬取拉勾'''from lxml import etreefrom selenium import webdriverfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.comm...原创 2018-09-23 15:14:34 · 836 阅读 · 0 评论 -
自动登录12306
简单的登录操作,等有空的话写一个自动登录的爬虫吧。from lxml import etreefrom selenium import webdriverfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byfrom sele...原创 2018-09-23 21:06:33 · 966 阅读 · 0 评论 -
scrapy登录豆瓣并修改个人信息
settings.py 文件中添加请求头,robots改为False。代码中注释较为详细,看不懂的私聊哦import scrapyfrom urllib import requestfrom PIL import Imageclass DoubanLoginSpiderSpider(scrapy.Spider): name = 'douban_login_spider'...原创 2018-09-24 17:22:43 · 398 阅读 · 0 评论 -
scrapy简书整站爬取
数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析 整站爬取提取url规则使用了scrapy 提供的 crawlspider 提取规则的url列表,scrapy会自动帮我们提取。jianshu.py 文件import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrap...原创 2018-09-25 22:43:25 · 1386 阅读 · 0 评论 -
python爬虫房天下可分布式
需要观察房天下url的构造,本次爬取的是新房和二手房两个栏目的具体字段。 涉及到的知识点有url的拼接,具体字段的解析清洗,页面不规整的情况下,怎样提取。 分布式部署的相关操作 在爬的时候建议网页延迟多一些。fangtianxia.py文件import scrapy,refrom fang.items import NewHouseItem,ESFHouseItemclass ...原创 2018-09-27 16:42:26 · 651 阅读 · 0 评论 -
基于搜狗微信的公众号文章爬虫
需求分析先来看一下目标网站。这次爬取的内容是通过搜狗微信的接口获取微信文章的 url 然后提取目标文章的内容及公众号信息。可以指定内容进行爬取那这次需要解决的问题有哪些呢?需要解决的问题搜狗微信在没有登录的情况下可以爬取十页信息,我们想要获取更多的信息只能登录。在登录的情况下,爬取数据量太大会被封 IP 。这里给出的解决方案是使用代理池的方法。我这里是自己搭建了一个小的IP代理池,在...原创 2018-10-09 21:14:58 · 4342 阅读 · 2 评论 -
scrapy突破反爬的几种方式(二)
上回说到设置随机 User-Agent ,这次来一个随机代理 ip 的设置。代理ip在爬虫中,为了避免网站将我们的 ip 封掉,我们就要使用代理 ip 。虽然说代理 ip 没有原装的好,但是有些时候还是要使用代理ip 来获取数据的。原理随机代理 ip 简单来说就是爬取网上的免费代理ip ,然后存入数据库,在数据库中随机拿到一个代理ip来用。具体结合到 scrapy 中,我们就要在 ...原创 2018-09-16 17:08:19 · 3180 阅读 · 0 评论 -
scrapy突破反爬的几种方式(一)
最近在学习 scrapy 中,突破反爬限制的几种方法,总结一下,记录学习过程中的收获。在以后的学习中也有可能会用到这些知识。Downloader Middleware简单介绍一下 Downloader Middleware 即下载中间件,它处于 Scrapy 的 Request 和 Response 之间的处理模块,在 scrapy 的整个架构中起作用的位置是以下两个在Schedul...原创 2018-09-16 14:58:21 · 3175 阅读 · 0 评论 -
python从mongodb处理数据
from pymongo import MongoClientimport jiebaimport os,refrom wordcloud import WordCloudfrom pyecharts import Piefrom pyecharts import Barclass Analycis(): def __init__(self): self.cl...原创 2018-09-11 20:29:13 · 943 阅读 · 0 评论 -
python骚操作,指定微信好友发送消息
python 指定好友发送消息大家在测试的时候尽量使用微信小号 不要不改代码就测试 这里调用了金山词霸的每日一句,你也可以指定文字信息发送,七夕快到了,你懂得。from threading import Timerfrom wxpy import *import requestsbot = Bot()#连接微信,会出现一个登陆微信的二维码def get_news(): ...原创 2018-08-14 21:14:09 · 5970 阅读 · 1 评论 -
用数据揭秘《一出好戏》好在哪里
黄渤导演的处女作《一出好戏》在八月十号上映,两天累计票房4.37亿,豆瓣评分7.4,网友一片叫好,没想到拍出了一部魔幻现实主义的故事。下面我们用数据来展示一下网友的看法。获取数据这里选择用猫眼来获取网友的评论先来分析一下网页,打开猫眼一出好戏页面,发现只有几条评论。影评猫眼在没有登录的情况下并没有展现评论内容,我们换一种思路,用电脑模拟手机客户端来获取数据。 点击箭...原创 2018-08-12 15:16:28 · 498 阅读 · 0 评论 -
用xpath、bs4、re爬取B站python数据
这里用三种方式解析B站import requests,refrom lxml import etreefrom bs4 import BeautifulSoupdef get_page(page): try: #这里要加上cookie headers = { 'Cookie': 'LIVE_BUVID=AUTO50152...原创 2018-08-15 17:05:13 · 983 阅读 · 0 评论 -
用selenium爬取淘宝美食
这里用淘宝来练习一下 selenium 的使用,可以替换关键字,爬取不同的物品,比如说衣服、鞋子之类的。啥也不说了,发车了。from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions...原创 2018-08-16 15:12:43 · 216 阅读 · 1 评论 -
详解python爬取今日头条街拍美图
之前已经爬过今日头条街拍的美图,今天再次完善一下代码,并详解爬取过程及遇到的坑。废话不多说,抓紧上车啦。分析页面分析索引页我们打开今日头条官网,在在搜索框输入「街拍」首页内容然后点击确定,跳转到街拍的详情页。街拍 这里可以看到上方有四个框,分别是 综合、视频、图集、用户。两种方式看到这里,就有两种不同的抓取方式。抓取综合下方的图集,这个方式虽然可以...原创 2018-08-19 10:55:31 · 3160 阅读 · 2 评论 -
分析Ajax爬取B站python视频
B 站真是个神奇的网站。找不到资料了,去 B 站逛一逛,保准有你满意的东西。前几天写了个爬虫,用 path、re、BeautifulSoup 爬取的 B 站 python 视频,但是这个爬虫有有个缺陷,没能获取视频的图片信息,如果你去尝试你会发现它根本就不在返回的结果里面。今天就用分析 Ajax 的方法获取到。分析页面通常我们在分析页面的时候,都要切换到 Network 分析url 从...原创 2018-08-22 16:22:51 · 1817 阅读 · 0 评论 -
python爬取猫眼电影 top 100 保存到CSV
代码没含量,希望帮到入门的小白。import requestsimport re,jsonfrom lxml import etreeimport csvclass Spider(): def open_csv(self): ''' 在CSV文件的开头写一行标题 :return: ''' wi...原创 2018-08-25 09:50:14 · 1412 阅读 · 0 评论 -
python爬取《春风十里不如你》分析
人的一生要经历太多的生离死别,那些突如其来的离别往往将人伤得措手不及。人生何处不相逢,但有些转身,真的就是一生,从此后会无期,永不相见。用力爱过的人,讲再见那一刻格外艰难。世界上最遥远的距离不是生离死别,而是对方已经云淡风轻,你却念念不忘。——网友评论一直很喜欢这首歌。正好学习python ,想着把这首歌的热门评论爬下来,看看网友的故事。网易云音乐是一个有情怀的地方。大多数想说却没有办...原创 2018-10-27 15:35:06 · 350 阅读 · 0 评论