- 博客(7)
- 收藏
- 关注
原创 谷歌扩展抓数据(谷歌插件)
模拟登录不管用的时候,你要抓人家后台数据,这个时候可以用谷歌插件。 谷歌插件又称谷歌扩展。里面全是js。 加载jquery就可以抓数据了,还可以跨页面呢。把数据存到background里面。循环抓物流跟踪号,代码示例(防止被领导批评,这里只放部分的代码-----学习方法即可)popup.js部分代码var win_ac = chrome.extension.getBackgroundPage(); //alert(win_ac.data_arr[win_ac.this...
2020-11-12 17:12:59 650
原创 PhantomJS之无头浏览器抓数据
前两个月公司派了个任务,抓某个网站的数据。可是这个网站的数据是用json渲染的,并且获取这个json的 ajax请求与链接也是有随机参数的。常规的方法一直在纠结,于是想为什么不把浏览器放到后台去抓,反正谷歌浏览器很快的。 找啊找啊找,找到了PhantomJS,这个无头浏览器。好东西。 它抓数据的代码写在JS里的。JS代码示例如下:"use strict";var page = require('webpage').create(), system = re...
2020-11-12 16:55:10 337
原创 php爬虫入门之phpspider框架
前言虽然python爬虫方便,但是php在这方面也不弱,谁让php是世界上最好的语言!这里推荐一款php的爬虫框架phpspider。不建议自己写爬虫,因为效率太低。使用框架爬虫真的要高效许多官方文档:https://doc.phpspider.org/1、下载官方github下载地址:https://github.com/owner888/phpspider下载地址可能无法访问,这里提供一个网盘下载地址:https://pan.baidu.com/s/10n9ZOUQBlr
2020-11-12 16:21:30 851
原创 爬虫虚拟登录
模拟登录这块我本来试着scrapy,但是我觉得真的很不灵活,倒腾了半天,也不行。后来还是用了我之前写的代码,用requests模块模拟。requests模块特别好用,比urllib2以及其他的都好用(至少我是这么觉得地)。模拟登录其实主要掌握了几点,就很好下手。 要抓住真正要登录的URL; 要拿到要post的表单数据Form data,一般是以字典形式; 填写好header,有的网站可能会认证User-Agent,Host,Referer等等请求头。 下面就来逐步说说我写模
2020-11-12 09:22:45 343
原创 微信api接口-PHP
首先,微信有常规的反爬虫,一般加个头就行了curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器开始抓数据-搜索列表$url="https://weixin.sogou.com/weixin?type=2&query=".$q."&page=".$page."&ie=utf8";抓到的数据用正则表达式即可这里搜索值是香港,拿到的详情地址不是长期存在.
2020-11-03 11:18:19 336
原创 CPU的原材料就是沙子,怎么由土变黄金的?
一般来说,我们对IC芯片的了解仅限于它概念,但是对于已经应用到各式各样的数码产品中IC芯片是怎么来的?大家可能只知道制作IC芯片的硅来源于沙子,但是为什么沙子做的CPU却卖那么贵?下面将会以常见的Intel、AMD CPU作为例子,讲述沙子到CPU简要的生产工序流程,希望大家对CPU制作的过程有一个大体认识,解开CPU凭什么卖那么贵之谜!硅圆片的制作1.硅的重要来源:沙子作为半导体材料,使用得最多的就是硅元素,其在地球表面的元素中储量仅次于氧,含硅量在27.72%,其主要表现形式就是沙子(主要成分为二
2020-10-27 14:24:21 1387
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人