爬虫学习
文章平均质量分 54
pergoods
这个作者很懒,什么都没留下…
展开
-
数据统计
--1.把自己的抓的数据存入和自己表结构一样的sanya_result_test_all(总数据)sanya_result_test_new(新增数据)sanya_result_test_old(重复数据)--运行importance类的java程序,根据mer_name(店铺名称)与NM_SHOP(shop_name)进行相似度比较--判断出 重复数据和新增数据;分别导入...2016-11-01 16:23:46 · 128 阅读 · 0 评论 -
八爪鱼规则学习
1.八爪鱼采集器是任何一个需要从网页获取信息的人都必备的采集工具2.要使用八爪鱼抓取数据肯定需要注册账号[color=blue]访问:http://dls.bazhuayu.com/ws/303[/color]点击注册账号通过手机或邮箱注册八爪鱼账号,(邮箱注册需要激活,邮件自动发送到你的注册邮箱,访问激活链接即可激活)3.下载八爪鱼客户端,登录客户端4.现在你就可以创建八...原创 2017-03-08 13:44:48 · 1696 阅读 · 1 评论 -
post请求加json参数或xml参数
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.net.MalformedURLException; import java.net.UR...原创 2018-07-20 18:21:05 · 463 阅读 · 0 评论 -
post请求加json参数方式二
package com.teamdev.jxbrowser.chromium.demo.tujia;import java.io.BufferedReader;import java.io.DataOutputStream;import java.io.IOException;import java.io.InputStreamReader;import java.io.O...原创 2018-07-24 14:02:01 · 1724 阅读 · 0 评论 -
无所不能的四种请求方式(天下武功为怪不破)
package com.teamdev.jxbrowser.chromium.demo.lvmama_bjcp.店铺.住宿;import java.io.BufferedInputStream;import java.io.BufferedReader; import java.io.ByteArrayOutputStream;import java.io.IOExcepti...原创 2018-07-26 11:50:56 · 1104 阅读 · 0 评论 -
fiddler 抓取 手机https 数据包 完美解决
转:https://jingyan.baidu.com/article/ca2d939d1c5dfceb6c31cea6.html1.安装fiddler,官网下载即可2.安卓手机一部,能连接wifi3.打开fiddler,点击tools, 打开Fiddler的Options菜单,进入"HTTPS"的TAB页面,依次配置如下选项: 1、勾选"Decrypt HTTPS t...原创 2018-08-03 12:43:27 · 2768 阅读 · 0 评论 -
采集ymx商品信息
public static void main(String[] args) { String keyword = "鼠标"; keyword=UrlEncoded.encodeString(keyword); System.out.println(keyword); System.out.println(System.currentTimeM...原创 2018-08-29 15:28:56 · 382 阅读 · 0 评论 -
App数据抓取
思路:通过fiddler抓包工具,USB连接手机,配置端口,设置代理,抓取手机端的请求和数据,写入文本文件,需要编写手机模拟操作的自动化脚本,以便自动化采集数据1.下载android sdk 、fiddler(抓包工具) 需要安卓手机一部,启动USB连接 ,安装手机驱动2.安装fiddler 4.6.2.0 ,配置fiddle,配置tools-》 fiddlers ...原创 2017-03-17 09:32:24 · 1254 阅读 · 2 评论 -
爬虫被封禁原因
爬虫被封禁常见原因1.首先,检查 JavaScript 。如果你从网络服务器收到的页面是空白的,缺少信息,或其遇到他不符合你预期的情况(或者不是你在浏览器上看到的内容),有可能是因为网站创建页面的 JavaScript 执行有问题。2.检查正常浏览器提交的参数。如果你准备向网站提交表单或发出 POST 请求,记得检查一下页面的内容,看看你想提交的每个字段是不是都已经填好,而且格式也正确。用...原创 2017-03-17 09:37:38 · 2961 阅读 · 1 评论 -
jd编号
京东店铺:https://mall.jd.com/index-1000000156.html 神舟电脑京东自营旗舰店等价于==>>京东店铺:http://hasee.jd.com/ 神舟电脑京东自营旗舰店原创 2017-11-02 17:59:48 · 265 阅读 · 0 评论 -
清除google缓存
1.进入 chrome://net-internals/#dns2.点击 clear host cache 搞定原创 2017-10-26 11:20:00 · 169 阅读 · 0 评论 -
jsoup + json 解析网页
package com.teamdev.jxbrowser.chromium.demo_lingshui.baidunuomi.goods;import java.awt.BorderLayout;import java.sql.PreparedStatement;import java.sql.SQLException;import java.util.concurrent....2016-11-01 16:25:29 · 1305 阅读 · 0 评论 -
httpclient
package com.teamdev.jxbrowser.chromium.demo_lingshui.baidunuomi.shop;import java.awt.BorderLayout;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;i...2016-11-01 16:37:05 · 100 阅读 · 0 评论 -
开源爬虫框架的优缺点?
开源爬虫框架各有什么优缺点?作者:老夏开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类:1.分布式爬虫:Nutch2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector3. 非JAVA单机...原创 2017-03-22 14:46:01 · 390 阅读 · 0 评论 -
java模拟jquery请求动作(模拟点击、选择下拉)
package com.teamdev.jxbrowser.chromium.demo_sanya12.xiecheng.evment;import java.awt.BorderLayout;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;im...原创 2016-12-29 14:40:10 · 642 阅读 · 0 评论 -
chrome 禁止加载网页图片 解决办法
1.在谷歌浏览器中输入:chrome://settings/content图片设置: 选择 不显示任何图片 ,即可2. 点击谷歌设置 -> 点击高级设置 ->再点击 隐私设置 下的内容设置-> 选择 不显示任何图片,即可...原创 2017-05-25 11:18:10 · 11786 阅读 · 0 评论 -
chromium.Browser 禁止加载图片,提升加载速度
package com.teamdev.jxbrowser.chromium.demoTest.jd427;import java.awt.BorderLayout;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.sql....原创 2017-05-25 11:29:16 · 982 阅读 · 0 评论 -
fiddler抓取的https请求 数据乱码问题解决方案
参考地址:http://blog.csdn.net/SomeOne_yt/article/details/53149402?locationNum=5&fps=11、首先确保安装的 Fiddler 是较新的版本,比较老的版本可能会出现安装不上fiddler证书生成器的问题。2、关闭Fiddler。3、下载并安装Fiddler证书生成器。(注:Fiddler 证书生成器只能在...原创 2017-06-09 09:44:19 · 1776 阅读 · 0 评论 -
adb server is out of date. killing... 本地连接夜神模拟器失败、超时
原因:1.模拟器器设置了代理;2.主要是模拟器和sdk 的adb.exe 版本不一致1、取消代理设置后:找到本地安卓SDK的目录和夜神模拟器的目录,[color=red]将SDK目录下的adb.exe文件,复制到夜神模拟器的目录下,因为夜神模拟器目录下原本的adb文件名字叫做nox_adb.exe,因此复制过去之后也得改名为nox_adb.exe[/color]2、这样就将...原创 2017-06-19 10:43:58 · 533 阅读 · 0 评论 -
反爬虫
1. 伪装user agent User agent 是HTTP协议的中的一个字段, 其作用是描述发出HTTP请求的终端的一些信息。 服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器,每个正规的爬虫都有其固定的user agent,因此只要将这个字段改为这些知名的user agent,就可以成功伪装了。不过,不推荐伪装知名爬虫,因为这些爬虫很可能有固定的IP,如百度爬虫...原创 2017-03-17 10:34:11 · 111 阅读 · 0 评论