关于selenium获取cookie然后实现免登陆

    这几天一直想搞明白cookie的爬虫使用,结果从昨天晚上开始试验,selenium获取的cookie怎么也无法实现直接登录,气的想打人。在刚才终于发现一些问题,在和浏览器中的cookie对比发现格式不一样,然后对着他进行格式改变,结果终于成功了,现在以一个模拟登录扣扣空间的例子: 这是模...

2018-06-06 12:21:54

阅读数 19153

评论数 7

linux的ps命令

##PS 命令是什么 查看它的man手册可以看到,ps命令能够给出当前系统中进程的快照。它能捕获系统在某一事件的进程状态。如果你想不断更新查看的这个状态,可以使用top命令。 ps命令支持三种使用的语法格式 UNIX 风格,选项可以组合在一起,并且选项前必须有“-”连字符 BSD 风格,选项可以组...

2019-01-30 11:43:31

阅读数 1978

评论数 1

linux的vi详细命令

讲述vi操作文件的几种命令 退出保存命令 :w 保存文件但不退出vi :w file 将修改另外保存到file中,不退出vi :w! 强制保存,不推出vi :wq 保存文件并退出vi :wq! 强制保存文件,并退出vi :q 不保存文件,退出vi :q!不保存文件,强制退出vi :e! 放弃所有修...

2019-01-30 11:40:15

阅读数 1977

评论数 1

linux主要的文件和目录的作用(详细版)

在 Linux 下,我们看到的是文件夹(目录): 在早期的 UNIX 系统中,各个厂家各自定义了自己的 UNIX 系统文件目录,比较混乱。Linux 面世不久后,对文件目录进行了标准化,于1994年对根文件目录做了统一的规范,推出 FHS ( Filesystem Hierarchy Stan...

2019-01-30 11:38:13

阅读数 1970

评论数 1

jupyter快捷键、markdown语法及markdown的算式语法

  jupyter的快捷键   Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Shift-En...

2019-01-23 10:24:35

阅读数 2067

评论数 1

cmd命令大全

命令简介 cmd是command的缩写.即命令行 。     虽然随着计算机产业的发展,Windows 操作系统的应用越来越广泛,DOS 面临着被淘汰的命运,但是因为它运行安全、稳定,有的用户还在使用,所以一般Windows 的各种版本都与其兼容,用户可以在Windows 系统下运行DOS...

2019-01-21 18:50:33

阅读数 1977

评论数 0

selenium直接"刚"淘宝登录

     现在爬取淘宝商品必须要登录,不登录爬取商品的时候会自动重定向到登录页面,也看过许多人用selenium等自动化框架模拟登录淘宝,但是淘宝可以检测出你使用的是selenium,然后无论怎么滑块验证都失败。然后前几天看到使用pyppeteer这个异步登录淘宝,确实是可以躲过淘宝的检测,就是不...

2018-12-25 09:46:53

阅读数 3560

评论数 4

python操作redis数据库

https://www.cnblogs.com/melonjiang/p/5342505.html

2018-12-17 21:49:39

阅读数 1970

评论数 1

爬取裁判文书网(一个很神奇的网站)

   昨天晚上爬取文书网,需要具体的文书内容,我就觉得去看看,发现这个文书网就是不简单,速度是真的慢,而且请求多次就返回502,刷新一次就卡的一批,而且他加密参数还不少,难度也相当的大......    JS加密的两个地方,首先他每个点击的连接都加密,简直丧心病狂,一般都是请求的AJAX进行加密...

2018-12-12 10:02:15

阅读数 5696

评论数 11

神奇的反爬措施--大众点评

        大众点评的店面详细信息比如地址,电话号码,评分等一系列的数字在f12下都找不到      只有1这个数字显示,其他的都被莫名其妙的标签占据。 其实破解这个很简单,我开始以为是在页面源代码中显示(script标签内),发现并么有,只有地址是在页面内源代码显示; 然后我觉得是请...

2018-12-10 22:46:22

阅读数 2869

评论数 3

加速爬虫:异步加载asyncio

          之前就一直想学习asyncio,然后就去网上查,发现讲的花里胡哨而且异常难懂,就放弃了一段时间,今天来重新学习一下,发现了一个大佬的文章,根据例子来理解就容易多了,文章最后放上大佬的连接。               传统的单线程下载处理网页可能就像下图(来源)左边蓝色那...

2018-12-01 14:51:38

阅读数 2076

评论数 1

爬虫的post提交表单

      今天很难受,因为一个简单的post问题困扰了很久,就是post失败,在一些测试网站和火狐浏览器的编辑重发进行模拟都可以成功,我就知道应该是我提交的表单格式问题。在这里分享模拟表单请求的网站和方法。        1. 测试网站http://coolaf.com/,这个网站还可以给你生...

2018-11-30 20:04:07

阅读数 2154

评论数 3

tensorflow reduction_indices理解

在tensorflow的使用中,经常会使用tf.reduce_mean,tf.reduce_sum等函数,在函数中,有一个reduction_indices参数,表示函数的处理维度,直接上图,一目了然: 需要注意的一点,在很多的时候,我们看到别人的代码中并没有reduction_indice...

2018-11-01 11:46:46

阅读数 1958

评论数 0

anaconda各个版本下载资源

   最新版的水蟒不是很放心,就决定下载之前版本的水蟒的英文网址https://repo.anaconda.com/archive/     下载的时候注意是下载anaconda2还是anaconda3,下图是各个版本对应关系     清华镜像:https://mirrors.tuna.tsi...

2018-10-26 19:56:28

阅读数 6964

评论数 0

pip配置国内镜像

   今天为了得到徽章就准备发篇原创博客,     这是在win平台下,其他平台的自行百度吧      win+r输入%APPDATA%       创建pip文件夹       进入文件夹内       创建pip.ini文件       内容为: [global] timeou...

2018-10-24 21:31:30

阅读数 1985

评论数 1

Flask运行时Unicode编码错误

    前几天将自己的系统升级为企业版,抛弃了最垃圾的家庭版,闲着没事将电脑的主机名字给改成了中文名字,结果今天开始学习flask运行就报错,只需要将主机名改为英文就行了。。。。。。。。。。。。...

2018-10-22 22:56:29

阅读数 2258

评论数 1

爬虫实战项目

  转载Python 爬虫进公司必会项目

2018-10-11 22:30:42

阅读数 2012

评论数 0

数据分析需要的数据集

       详情看这里https://blog.csdn.net/linqianbi/article/details/78626130,这些数据的网站在http://dataju.cn/Dataju/web/home这里下载,github上https://github.com/awesomeda...

2018-10-11 22:25:06

阅读数 1996

评论数 0

利用mitmproxy进行抓包

  这几天在利用mitmdump抓取手机app包的时候,一直连接不上去,非常坑,首先我是在window平台,只能使用mitmdump,当时找主机的ip的时候,没有找到我主机的ip。后来才知道怎么找到,然后找到正确的主机ip之后,要将防火墙关闭,并在手机上配置相应的信息。      1.寻找正确的...

2018-10-08 23:00:54

阅读数 2853

评论数 2

爬取qq音乐

     今天早上闲着没事,看看qq音乐的评论爬取,当然我也没有具体的爬取哪些内容,只是分析了他的请求网址。       我总结出爬取网页信息的几个方式。首先直接查看网页源代码,查看网页源代码是否有你想要的信息,如果有的话直接请求网页然后解析就行了,这是最简单的方式。不过大多数的网站都是异步加载...

2018-09-26 10:15:55

阅读数 2531

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭