qq731582594-CSDN博客

原创谷歌扩展抓数据（谷歌插件）

模拟登录不管用的时候，你要抓人家后台数据，这个时候可以用谷歌插件。谷歌插件又称谷歌扩展。里面全是js。加载jquery就可以抓数据了，还可以跨页面呢。把数据存到background里面。循环抓物流跟踪号，代码示例（防止被领导批评，这里只放部分的代码-----学习方法即可）popup.js部分代码var win_ac = chrome.extension.getBackgroundPage(); //alert(win_ac.data_arr[win_ac.this...

2020-11-12 17:12:59 755

原创 PhantomJS之无头浏览器抓数据

前两个月公司派了个任务，抓某个网站的数据。可是这个网站的数据是用json渲染的，并且获取这个json的 ajax请求与链接也是有随机参数的。常规的方法一直在纠结，于是想为什么不把浏览器放到后台去抓，反正谷歌浏览器很快的。找啊找啊找，找到了PhantomJS，这个无头浏览器。好东西。它抓数据的代码写在JS里的。JS代码示例如下："use strict";var page = require('webpage').create(), system = re...

2020-11-12 16:55:10 441

原创 max的淘宝商品详情接口

以下是数据示例

2020-11-12 16:35:30 264

原创 php爬虫入门之phpspider框架

前言虽然python爬虫方便，但是php在这方面也不弱，谁让php是世界上最好的语言！这里推荐一款php的爬虫框架phpspider。不建议自己写爬虫，因为效率太低。使用框架爬虫真的要高效许多官方文档：https://doc.phpspider.org/1、下载官方github下载地址：https://github.com/owner888/phpspider下载地址可能无法访问，这里提供一个网盘下载地址：https://pan.baidu.com/s/10n9ZOUQBlr

2020-11-12 16:21:30 998

原创爬虫虚拟登录

模拟登录这块我本来试着scrapy，但是我觉得真的很不灵活，倒腾了半天，也不行。后来还是用了我之前写的代码，用requests模块模拟。requests模块特别好用，比urllib2以及其他的都好用（至少我是这么觉得地）。模拟登录其实主要掌握了几点，就很好下手。要抓住真正要登录的URL；要拿到要post的表单数据Form data，一般是以字典形式；填写好header，有的网站可能会认证User-Agent,Host,Referer等等请求头。下面就来逐步说说我写模

2020-11-12 09:22:45 402

原创微信api接口-PHP

首先，微信有常规的反爬虫，一般加个头就行了curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器开始抓数据-搜索列表$url="https://weixin.sogou.com/weixin?type=2&query=".$q."&page=".$page."&ie=utf8";抓到的数据用正则表达式即可这里搜索值是香港，拿到的详情地址不是长期存在.

2020-11-03 11:18:19 437

原创 CPU的原材料就是沙子，怎么由土变黄金的？

一般来说，我们对IC芯片的了解仅限于它概念，但是对于已经应用到各式各样的数码产品中IC芯片是怎么来的？大家可能只知道制作IC芯片的硅来源于沙子，但是为什么沙子做的CPU却卖那么贵？下面将会以常见的Intel、AMD CPU作为例子，讲述沙子到CPU简要的生产工序流程，希望大家对CPU制作的过程有一个大体认识，解开CPU凭什么卖那么贵之谜！硅圆片的制作1.硅的重要来源：沙子作为半导体材料，使用得最多的就是硅元素，其在地球表面的元素中储量仅次于氧，含硅量在27.72%，其主要表现形式就是沙子（主要成分为二

2020-10-27 14:24:21 1796

tel19912480279的博客