风中的承诺

叶底藏花一度,梦里踏雪几回。

逆向js之解析响应加密信息

       前些时候,看到有人在群里发了一个网站,说是返回的data参数是加密信息, 无法解析data保存相关信息。 想到好久没写文章了,于是乎就去看了一下, 准备那这个当素材。     ...

2019-05-14 11:29:24

阅读数 36

评论数 0

爬虫应对反爬之css反爬

最近看到一个网站有css反爬,感觉比较有意思,这里就顺手破解一下,纯做技术分享 首先打开它的站点,感觉是个很low又没有任何反爬的站点,它长这样: 很单纯的列表页,此页面无任何反爬,直接分析拿到详情页的地址即可。有意思的来了… 任意打开一篇详情页文章 可以看到它是一个字一个字的显示...

2019-01-18 11:24:23

阅读数 399

评论数 0

html文本保存为chm文档,并建立索引

上节讲解了如何抓取微信公众号文章,这节就来搞搞怎样保存,方便自己以后查阅。 这里我选择了chm。 有三个原因:     1.chm可以建立索引,查阅文章比较方便  &a...

2019-01-10 22:34:36

阅读数 153

评论数 0

Python爬取微信公众号文章

本篇文章使用到的技术: mitmdump + 电脑版微信 先分析 打开可视化抓包工具, 勾选https代理。然后打开电脑版微信 任意点击一个公众号,再点击查看历史消息 打开后这样 向下滑动右侧的滚动条,同时观察抓包软件,有新的数据加载即可停止滑动,仔细分析抓包软件的数据 ...

2019-01-09 19:46:45

阅读数 256

评论数 0

美拍小视频去水印

分享一下逆向js的经验 进入美拍任意一个视频页面,通过F12控制台 通过点击顺序到js中,全局搜索mp4,可以找到一下代码 这里发现比较可疑,打个断点,重新刷新页面,断点到此处,然后点击下一步 断点来到6114行,把鼠标放到a上,可以发现,就是页面传过来的data-vi...

2018-12-13 21:36:21

阅读数 619

评论数 3

airflow 修改中国时区(改airflow源码)

airflow默认使用utc时间,在中国时区需要用+8小时就是本地时间, 下面把airflow全面修改为中国时区,带大家改airflow源码 博主使用airflow版本是1.10.0,其它版本大同小异,参照修改即可 1. 先讲使用 pip安装apache-airflow 的修改方式 ...

2018-11-03 17:30:47

阅读数 2615

评论数 18

centos7 大数据任务调度系统airflow的安装(单机或分布式)

airflow的安装步骤1. 设置airflow的家目录位置2. 安装airflow3. 初始化airflow4. 修改mysql服务器的配置文件 my.cnf5. airflow建议两种运行方案 LocalExecutor或者CeleryExecutor6. 再次初始化数据库7. 启动web服务...

2018-10-26 09:52:16

阅读数 439

评论数 0

pandas处理mongodb数据

使用pandas处理mongodb数据,转储为csv import pymongo import pandas as pd client = pymongo.MongoClient('192.168.116.215') cur = client["库名"...

2018-03-27 10:35:13

阅读数 515

评论数 0

opencv实现视频抽帧,作为其视频封面(python)

  在使用爬虫的过程中,爬到的视频没有视频封面,这时就需要我们手动给他添加一个视频封面,那么opencv就登场了,我们可以使用它抽取视频中的任意一帧保存下来,作为其视频封面 import cv2 def get_video_pic(name): cap = cv2.VideoCaptur...

2018-03-12 20:56:20

阅读数 1583

评论数 2

windows部署SpiderKeeper(爬虫监控)

博主部署SpiderKeeper环境是windows, 相信用Linux的同学部署起来也没有任何问题. 第一步:   mkvirtualenv 创建虚拟环境   Linux虚拟环境配置   Windows虚拟环境配置 第二步: workon spiderkeepe...

2018-02-07 05:05:33

阅读数 4982

评论数 14

centos 安装twisted 报错error: command 'gcc' failed with exit status 1

我的环境是 centos + python3.4 安装twisted报错,error: command ‘gcc’ failed with exit status 1 解决办法: yum install python34-devel 安装完了就好了,针对这个问题,网上的版本太多,但是好像...

2018-01-30 17:03:22

阅读数 393

评论数 0

python虚拟环境配置

为了使开发环境互不影响,我们应该使用虚拟环境帮助我们去进行开发。 第一步:安装virtualenv     直接pip install virtualenv即可 第二步:使用virtualenvwrapper管理工具来管理我们的虚拟环境      pip install virtuale...

2018-01-28 13:57:57

阅读数 316

评论数 0

爬虫常用的小工具(谷歌插件)

为了方便爬虫代码的快速编写,及业务功能实现,现分享三个我常用的谷歌插件。 1. xpath,全名XPath Helper 在QUERY里可直接写XPATH规则,获取想要的数据 2. JSON-handle 此工具可把通过ajax请求网页的返回数据直接转换成比较好看的jso...

2018-01-18 19:57:49

阅读数 9349

评论数 1

navicat11破解工具PatchNavicat

此破解工具不能破解navicat 12版本,navicat11可以破解。 百度云地址:https://pan.baidu.com/s/1qZMxDBe 密码:65by 如失效,请在下方评论,我看到会更新链接。

2018-01-16 11:43:56

阅读数 3396

评论数 1

安装Twisted报错:Microsoft Visual C++ 14.0 is required

安装Twisted报错如下: 解决方法:   1.进入http://landinghub.visualstudio.com/visual-cpp-build-tools页面    2.点击下载即可   3.一路next安装就可以啦! ps: 百度云下载:https:/...

2018-01-16 11:38:20

阅读数 980

评论数 0

快速解决No module named 'win32api'

启动scrapy的时候报这个错误,可使用pip install pypiwin32,是不是很方便呢

2018-01-16 10:48:39

阅读数 611

评论数 1

json数据键值对两端没有引号怎么转字典

最近碰到一个网站,返回的数据巨恶心,如果用正则或者其它的方法一个一个找规则替换,非常麻烦。直接使用json.loads肯定是会报错的。   返回数据如下,具体多恶心,自己试一试就知道了! { serverSeconds : 1515659363, last_time : 1515659...

2018-01-13 20:08:42

阅读数 1378

评论数 0

针对文章内容进行去重

最近公司项目抓取新闻板块内容,但是多个网站之间,重复新闻的概率很高(因为大多数新闻网站的内容都是互相爬取的),所以我自己想了一个针对内容的去重方法。   大概思路是: 取文章当中最长的3句话(当然这个值可以自己随意指定),默认只接收列表,然后进行hash,把hash值存储在redis中,因为...

2018-01-13 19:23:15

阅读数 833

评论数 0

django中的小坑

argument to reversed() must be a sequence Request Method: GET Request URL: http://127.0.0.1:8000/user/address/ Django Version: 1.8.7 Exception Typ...

2017-10-19 19:10:15

阅读数 1318

评论数 0

django中的cookie和session

问:为什么要cookie和session,它们有什么作用?答:http请求本身是无状态的,也就是说你之前登录过某些网站,刷新之后就需要重新登录,这时候就需要用cookie或者session来保持你的登录状态。又因为cookie是保存在浏览器本地,不安全,所以使用session来保持用户状态。下面就...

2017-10-12 15:12:38

阅读数 352

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭