![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
ITcainiaoyizhan
这个作者很懒,什么都没留下…
展开
-
Python+Scrapy爬取安居客信息及数据存入MySQL,sqlite,MongoDB数据库
spider爬虫模块:# -*- coding: utf-8 -*-from scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom anjuke2.items import Anjuke2Itemfrom scrapy import Requestimpor...原创 2018-11-14 21:41:36 · 2830 阅读 · 0 评论 -
应对js反爬虫的尝试,爬取中国人民银行
应对js反爬虫的尝试,爬取中国人民银行在 - 简书-爬虫数据分析学习交流 - 微信群里有位朋友Jacky提到爬取中国银行遇到的问题,一时兴起便做了尝试。首先还原问题,我们禁用js,在chrome浏览器中新建标签页,F12 > F1 >打开设置在右下角找到禁用js并勾选打开中国人民银行条法司网页发现如下的页面显示...转载 2018-12-24 11:38:43 · 4651 阅读 · 2 评论 -
selenium之 chromedriver与chrome版本对应表
火狐浏览器支持的最大化窗口,在谷歌浏览器中不适用,困扰了一个下午,从网上百度了很多,都没有解决办法。经过不懈努力终于找到了原因:谷歌驱动和浏览器搭配不合适现在附上对应的版本,以及下载地址,希望对大家有用 chromedriver版本支持的Chrome版本v2.3...转载 2018-12-25 16:00:33 · 859 阅读 · 0 评论 -
xpath取出某个标签下多个标签的所有文本信息几种方法
爬虫爬取数据有时候我们需要爬取多个标签的文本内容,或者需要保留标签属性,就要连同标签一起拿下来。你可以写正则,今天我介绍一种用xpath爬取的方法。下边第一种方法就可以连同HTML标签一起爬下来,后两种能爬取所有文本信息,但没有了标签属性:①第一种方法可以取出某个标签内的HTML字符串,包含各种标签属性,输出的结果就是网页正常显示的文章部分的HTML。 html_content3 = re...原创 2019-01-05 13:43:48 · 12513 阅读 · 0 评论 -
反爬虫之猫眼电影字体加密
猫眼电影里面很多数字是加密的如下图;我们可以找到他们用的加密字体如下图;两个黑线之间的字符串。手工粘贴出来一份,太长中间省略了;font_str1='d09GRgABAAAAAAggAAs.......................JnoBGUMXjA=='# 因为网页里找到的字体字符串时经过base64加密的,用下边方法解析并且保存下载字体备用def make_font_fil...原创 2019-01-05 19:29:09 · 2040 阅读 · 0 评论 -
Scrapy-django将爬好的数据直接存入django模型中
Scrapy和django结合项目,使用Django项目中的models模型,直接将爬虫项目爬取的数据存到Django项目的数据库中,并展示到web页面。 项目整体结构:├── django+scrapy│ ├── example_bot│ │ ├── __init__.py│ │ ...转载 2019-01-07 19:15:56 · 1074 阅读 · 0 评论 -
Python起点字体加密破解
import requestsimport refrom lxml import etreefrom fontTools.ttLib import TTFontfrom io import BytesIOurl = ‘https://book.qidian.com/info/1012932890’headers = {‘User-Agent’: ‘Mozilla/5.0 (Windo...原创 2019-01-14 19:22:21 · 1585 阅读 · 1 评论 -
Ubuntu 16.04后台运行scrapy爬虫程序
某些爬虫程序需要运行很长时间才能将数据爬完,爬取太快呢又会被网站给封禁。你又不想一直开着电脑连续开几天,太麻烦。。。其实有个好方法,你可以把爬虫放在阿里云服务器运行,这样你就不需要管了,但是你如果在Ubuntu或阿里云上直接:scrapy crawl spider_name 或python run.py的话当你关闭链接阿里云的xshell时,程序会直接停掉不会继续运行。今天给大家分享一个...原创 2019-01-15 18:48:06 · 3546 阅读 · 2 评论