![](https://img-blog.csdnimg.cn/20191008180452416.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 58
爬虫学习及练习
__tian__
我走过的路,每一步都算数
展开
-
猿人学14题详解
使用ast解决猿人学14题原创 2023-02-19 17:51:51 · 817 阅读 · 1 评论 -
猿人学第九题反混淆
猿人学第九题原创 2023-02-17 16:26:41 · 998 阅读 · 0 评论 -
H5 app开启web调试
在Android app逆向时,H5类型的app的加密通常在js中,所以就需要一种手段来查看源代码,查看加密过程。原创 2022-11-19 21:57:44 · 2858 阅读 · 0 评论 -
用户证书问题
用户证书目录/data/misc/user/0/cacerts-added、Android7后,系统只信任系统证书,需要把用户证书移动到系统证书目录。系统证书路径/etc/security/cacerts。使用MagiskCertificates模块来移动证书。原创 2022-06-30 21:43:53 · 1091 阅读 · 0 评论 -
大众点评woff反爬
一、调试发现字体是加密的,猜测试自定义字体。二、WTF woff?woff是一种网页采用的字体格式标准,……查看页面源代码,确认是woff加密三、绕过①获取woff文件随便选择一个属性,发现使用的是PingFangSC-Regular字体,全局搜索这个字体的来源,发现是由font-face引入。在这个css文件中引入了几个woff文件,把这几个woff文件全部保存下来。共有3个②如何与汉字映射?有两种办法可以查看woff文件,一是百度在线字体编辑,二是fon.原创 2022-01-12 23:33:13 · 1240 阅读 · 2 评论 -
某科技js逆向
js逆向原创 2021-12-15 22:50:24 · 1332 阅读 · 0 评论 -
京西js逆向
京西login逆向原创 2021-12-12 17:06:33 · 1246 阅读 · 0 评论 -
ERROR: dump failed because no AndroidManifest.xml found
报错原因:路径中不能含有中文原创 2020-10-09 19:49:02 · 878 阅读 · 0 评论 -
Django+scrapy结合elasticsearch构建搜索引擎(一)
这个项目是大四上学期实习的一个项目。因为我正好也在学Scrapy,所以就以这个作为项目。也可能作为我的毕业设计。github地址:https://github.com/tianmingbo/scrapy-elastic一、elasticsearch使用https://blog.csdn.net/T_I_A_N_/article/details/103253975 elastic教...原创 2019-11-28 21:36:04 · 820 阅读 · 0 评论 -
搜索引擎搭建
一、java环境安装二、elasticsearch-rtf安装(github)https://github.com/search?q=elasticsearch-rtf三、elasticsearch-head安装(github)需要安装node.js更改安全策略,否则elassearch-head不能连接elasticsearchelasticsearch-rtf\conf...原创 2019-11-26 21:20:55 · 555 阅读 · 0 评论 -
自动化提交数据
工作需要,要往后台添加数据,我又太懒,不想一个一个点,所以写了一个自动提交工具,使用selenium+爬虫做的一个小工具。懒是我进步的阶梯。添加数据页面from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support...原创 2019-11-23 11:13:31 · 384 阅读 · 0 评论 -
selenium使用
目录1、使用示例:2、定位元素:3、操作表单元素:4、Cookie操作:5、页面等待:6、切换页面:7、设置代理ip:selenium教程:http://selenium-python.readthedocs.io/installation.html#introduction1、使用示例:首先需要有浏览器的驱动。from selenium import...原创 2019-11-23 11:06:25 · 270 阅读 · 0 评论 -
Scrapy使用MySQL
供以后写代码参考:一、同步执行import pymysqlclass CollectDataPipeline(object): def open_spider(self, spider): print('open' * 20) self.conn = pymysql.connect(host="127.0.0.1", user="root",...原创 2019-11-16 18:00:49 · 512 阅读 · 0 评论 -
Scrapy保存图片&自定义保存
一、爬取昵图网第一步:1、新建项目scrapy startproject nituwang2、新建爬虫scrapy genspider nituwang_spider nipic.com3、更改设置……第二步:1、爬虫启动文件from scrapy import cmdlinecmdline.execute("scrapy crawl --n...原创 2019-11-16 15:38:15 · 881 阅读 · 0 评论 -
CSS选择器&xpath语法
一、xpath语法 表达式 说明 article 选取所有article元素的所有子节点 /article 选取根元素article article/a ...原创 2019-11-15 22:07:11 · 262 阅读 · 0 评论 -
Scrapy 框架流程详解
框架流程图Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯,整体架构大致如下(绿线是数据流向):简单叙述一下每层图的含义吧:Spiders(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器) Engine(引擎):框架核心,负责Spider、...转载 2019-11-15 21:42:51 · 572 阅读 · 0 评论 -
使用selenium爬取拉勾网
__author__ = '田明博'__date__ = '2019/10/20 8:39'from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as E...原创 2019-10-20 20:06:27 · 1004 阅读 · 0 评论 -
selenium报错
selenium定位时报错:selenium.common.exceptions.ElementClickInterceptedException: Message: Element <span class="pager_next "> is not clickable at point (635,697) because another element <div class...原创 2019-10-20 19:11:55 · 459 阅读 · 0 评论 -
表情包爬虫
一、同步爬虫import requestsfrom lxml import etreefrom urllib import requestimport osimport reimport timedef get_page_source(link): headers = { 'Referer': 'http://www.doutula.com/pho...原创 2019-10-12 20:25:18 · 411 阅读 · 0 评论 -
爬虫
对中国大学排名前20的爬取import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url):#用requests库爬取网页 try: r = requests.get(url, timeout=30) r.raise_for_status()#返回状...原创 2018-06-21 12:58:48 · 435 阅读 · 0 评论 -
糗事百科爬虫
import urllib.requestimport sslimport redef jokeCrewler(url): headers={ "User-Agent":"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)" } req=urllib.request.Request(u...原创 2018-12-27 18:16:51 · 435 阅读 · 0 评论 -
爬虫爬取QQ号
这个爬虫是拿来练手的,可以爬取网络中的QQ号,然后存储到本地。import urllib.requestimport sslimport reimport osfrom collections import deque #导入队列库def writeFileBytes(htmlBytes,topath): with open(topath,'wb') as f: ...原创 2018-08-07 18:40:17 · 9481 阅读 · 0 评论 -
爬虫使用代理池
在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,那如何解决呢?使用代理ip,设置代理ip池。这个代码首先获取 http://www.xicidaili.com/nn/网站中的一个随机的代理ip。然后就是刷自己的CSDN访问量的,,,,,(为了学习,为了学习)...原创 2019-06-11 17:59:43 · 823 阅读 · 1 评论 -
电影天堂爬虫
电影天堂会封IP,多次访问请使用代理池。__author__ = '田明博'__date__ = '2019/10/8 21:17'import requestsfrom lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:69.0) Gecko/...原创 2019-10-09 11:57:31 · 1018 阅读 · 0 评论 -
爬虫之全国天气最低的十个城市
__author__ = '田明博'__date__ = '2019/10/9 21:23''''获取所有城市的天气预报,按最低温度排名'''import requestsimport operatorfrom bs4 import BeautifulSoupimport matplotlib.pyplot as pltdef get_page(link): '''...原创 2019-10-10 13:54:29 · 607 阅读 · 2 评论 -
爬取古诗词网(使用正则)
一、正则使用正则表达式常用匹配规则:匹配某个字符串:text = 'hello'ret = re.match('he',text)print(ret.group())>> he以上便可以在hello中,匹配出he。点(.)匹配任意的字符:text = "ab"ret = re.match('.',text)print(ret.group())...原创 2019-10-11 14:25:20 · 668 阅读 · 0 评论 -
热播电影推荐
练习xPath,爬取豆瓣正在放映电影,获取电影信息,按评分对电影排序。import requestsfrom lxml import etreeimport operatordef get_text(): # 把源代码爬取下来 headers = { 'Referer': 'https://movie.douban.com/', ...原创 2019-10-08 18:06:33 · 578 阅读 · 0 评论