- 博客(6)
- 资源 (13)
- 收藏
- 关注
原创 爬虫绕过“登录页面”
当我们在写爬虫的时候,往往会遇到很多反爬的问题。 比如:在登录页面设置验证码、扫描二维码登录、滑动鼠标登录、手机短信验证码登录等等。这里介绍一种个人已经实现的方法——绕过登录页面。这里的绕过不是说真的可以绕过登录,除非这个系统本来就有问题,这是这个系统天大的bug。这里说的绕过登录是指登录一次记住cookie信息,下次登录的时候就直接跳过了登录的页面。废话不多说,直接上代码:
2016-04-29 17:03:59 21960 4
转载 SQL语句强化练习题及答案
SQL语句强化练习题及答案一、简单查询1、列出全部学生的信息。SELECT * FROM 学生2、列出软件专业全部学生的学号及姓名。SELECT 学号,姓名 FROM 学生 WHERE专业="软件"3、列出所有必修课的课号。SELECT DISTINCT 课号 FROM 必修课4、求1号课成绩大于80分的学生的学号及成绩,并按成绩由高到低列出。SELEC
2016-04-18 11:16:45 10504
原创 ElasticSearch的java API基本操作
package test;import java.util.Date;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Map.Entry;import org.elasticsearch.action.delete.DeleteResponse;imp
2016-04-15 16:04:57 529
转载 mysql 删除单表内多个字段重复的数据
转载地址:http://blog.csdn.net/lingyou37/article/details/17911457遇到个问题,一个表内两个字段应该加上unique约束,但没加导致出现重复数据,网上找到一条sql可以删掉重复数据,原sql是这样的: DELETE from test WHERE (mid,uid) in (SEL
2016-04-14 10:08:03 1581 1
原创 windows下安装elasticsearch
简介 ElasticSearch是一个基于Lucene构建开源、分布式、RESTful搜索引擎。设计用户云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便。支持通过HTTP使用JSON进行数据索引。 我们建立一个网站或者应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望我们的搜素解决方案要快,我们希望有一个零配置
2016-04-11 13:53:18 2068
原创 分析用户的访问偏好
本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好,项目流程如下图所示:数据采集 项目流程中,提取用户访问页面的URL和URL对应的正文内容,由本人在公司参与一起开发的爬虫系统爬取相应门户网站(新浪)上的数据。爬虫核心代码见我的另一篇文章:httpclient使用详解(爬虫) 爬虫的框架使用的是java多线程开发,由于数据时效性不是很强,所以并没有
2016-04-05 14:19:26 7167 2
xgboost windows 可运行jar包
2018-02-24
hadoop1.0.4,window下运行包
2016-04-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人