- 博客(35)
- 资源 (25)
- 收藏
- 关注
转载 【转载】最全最详细Hadoop学习文章
https://www.cnblogs.com/qingyunzong/category/1169344.html
2018-11-30 16:57:26 610
转载 机器学习分享的资源
PDF:https://blog.csdn.net/lqf921205/article/details/78399869视频:https://blog.csdn.net/q361239731/article/details/81012904
2018-11-30 14:58:47 294
原创 机器学习入门知识
本文主要向大家介绍了机器学习入门之机器学习------精心总结,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。1.数学偏差与方差拉格朗日核函数凸优化协方差矩阵Hessian矩阵CDF(累计分布函数)高斯概率密度函数中心极限定理2.机器学习Java 机器学习 工具 & 库1.处理小数据效果好 2.深度学习—大数据,超过500w;图像,语言方面效果奇...
2018-11-30 14:44:56 181
原创 根据经纬度求最近点的三种解法java实现
geoHash优秀文章:https://blog.csdn.net/youhongaa/article/details/78816700https://blog.csdn.net/u011497262/article/details/812106341.利用geoHash把经纬转换成32进制的编码字符串2.将待搜索的坐标转换成编码与坐标库中的串进行比较,找出前缀匹配长度高放入map中,再从...
2018-11-30 11:26:44 5429 1
转载 Hive的UDF概念
首先我们学习hadoop的时候,为了让我们不太会java语言但是对SQL很熟悉的工程师能够操作基本的mapreduce计算过程,Hive被设计出来了。Hive就好比是hadoop在执行MR(mapreduce)程序的一个操作系统,因为我们可以用简单的SQL语句去代替复杂的MR程序,因为Hive可以将我们的SQL语句转化为MR程序然后去执行。Hive的语法和SQL的语法很多地方是相同的,所以说它就是...
2018-11-27 21:29:01 597
原创 java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.isAsyncStarted()Z 的解决
jetty 9 嵌入式开发时,启动正常,但是页面一浏览就报错如下:java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.isAsyncStarted()Z原因:jetty 9 依赖的servlet-api是3.X版本,如果项目中还有其它第3方开源库隐式依赖了2.x版本的servlet-api,就会报这个错。转载:...
2018-11-27 15:34:32 750
原创 jetty9更改post请求长度
添加如下代码即可: static { System.setProperty("org.eclipse.jetty.server.Request.maxFormContentSize", String.valueOf(Integer.MAX_VALUE)); System.setProperty("org.eclipse.jetty.server.Request.maxFormKeys",...
2018-11-27 11:10:00 1657
转载 json解析双引号
解析一个json数据:{“manifest”:{ Version:“3.0”}}仔细看的话,这个字符串不是正规的json格式,Version少了双引号,应该是:{“manifest”:{ “Version”: “3.0”}}转载:https://www.cnblogs.com/afluy/p/4023838.html如果用JSONObject mainfestObject.getJSO...
2018-11-27 10:46:19 1364
转载 StringEscapeUtils类的使用
https://blog.csdn.net/layman1024/article/details/72628379
2018-11-26 16:11:03 2675
原创 【转载保存】Selenium Webdriver元素定位的八种常用方式
转载地址:https://www.cnblogs.com/qingchunjun/p/4208159.html
2018-11-22 11:59:56 260
原创 利用正则匹配url是否合法对于有的url会浪费过长时间使程序卡死,切记!
改进:改成匹配url是否为以某个结尾的,至于非法的url就让Jsoup.connect(url)把异常抛弃 //启动该正则匹配特别的慢// public static String regex = "^([hH][tT]{2}[pP]:/*|[hH][tT]{2}[pP][sS]:/*|[fF][tT][pP]:/*)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\/])...
2018-11-21 18:20:19 255
原创 爬虫遇到路径转换的解决方案
String href = n.attr("abs:href");//jsoup自带的路径转换方法,有的时候行不通 if("".equals(href)) { href = n.attr("href"); if (href.indexOf("http") < 0) { href = getAbsoluteURL(url, href); ...
2018-11-21 17:26:09 461
转载 【转载保存】mapreduce优秀文章
Hadoop MapReduce执行过程详解及MR中job参数及设置map和reduce的个数(带hadoop例子):https://blog.csdn.net/helloxiaozhe/article/details/79246400MapReduce–倒排索引:https://blog.csdn.net/jianjian1992/article/details/47259479...
2018-11-15 21:49:28 159
转载 【转载保存】hadoop学习之wordcount运行错误处理
https://blog.csdn.net/lxa8008/article/details/50868192
2018-11-15 16:11:32 214
转载 【转载保存】hadoop三个配置文件的参数含义说明core-site.xml、hdfs-site.xml、...
https://www.iyunv.com/thread-17698-1-1.html
2018-11-15 16:04:56 672
原创 【转载保存】webCollector使用教程
github:https://github.com/CrawlScript/WebCollectorgitee(里面新闻的例子不错): https://gitee.com/education
2018-11-13 16:25:58 664
转载 【转载】Jsoup设置代理ip访问
转载地址:https://blog.csdn.net/qq_36980713/article/details/80913248import java.io.IOException;import java.util.*;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;impo...
2018-11-13 11:37:03 3227
转载 【转载保存】WebCollector 2.x 入门教程
https://blog.csdn.net/ajaxhu/article/details/38406687
2018-11-12 20:37:12 231
原创 【优秀文章保存】webcollector抽取新闻正文
jar包下载:https://github.com/CrawlScript/WebCollector/blob/master/webcollector-2.73-alpha-bin.zip使用介绍(超详细):https://blog.csdn.net/wangmx1993328/article/details/81667284?utm_source=blogxgwz0#commentBox网页...
2018-11-12 17:19:35 343
原创 WebMagic学习总结
概念介绍:http://448230305.iteye.com/blog/2145296入门教程:https://blog.csdn.net/zhengmengjia/article/details/42028283#commentBox别人的开源项目(里面有jar包,不用麻烦去找了):https://github.com/liyifeng1994/webmagic-csdnblog...
2018-11-12 15:10:52 387
原创 Berkeley DB作用
Berkeley DB是一个嵌入式数据库,这里的嵌入式和嵌入式系统无关,嵌入式数据库的意思是不需要通过JDBC访问数据库,也不单独启动进程来管理数据,Berkeley DB运行在网络爬虫所在的进程空间。Berkeley DB中的一个数据库只能存储键值对,Berkeley DB底层实现采用B+树实现,可以把它看作可以存储大量数据的HashMap,如果使用Berkeley DB java版本需要引入...
2018-11-11 21:40:52 324
原创 java多线程爬虫框架crawler4j的使用
一开始找jar包找了好久都没找到,后来花了6个积分把所有的依赖包找到了,现在放在百度云供大家免费下载:链接:https://pan.baidu.com/s/12MTMy4d4e6hZsmWAdXbUMQ提取码:433g注意这些依赖包是3.5版本的不是最新版本。如果想使用最新版本的可以在github中找pom.xml下载,但是我自己尝试的时候下载不全,github优秀项目地址:https:...
2018-11-11 20:54:52 478
原创 【转载保存】Selenium WebDriver API常用方法
详细:https://blog.csdn.net/yjlch1016/article/details/78115813#commentBox中文API:https://blog.csdn.net/m0_37831339/article/details/81206427
2018-11-08 15:06:57 151
原创 相对路径转成绝对路径
public static String getAbsoluteURL(String baseURI, String relativePath) { String abURL = null; try { URI base = new URI(baseURI);// 基本网页URI URI abs = base.resolve(relativePath);// 解析于上述网页的...
2018-11-08 14:52:25 2395
转载 【转载保存】Java+Selenium使用
环境搭建:https://blog.csdn.net/u011541946/article/details/72898514问题解决:https://blog.csdn.net/u010366748/article/details/72872190
2018-11-07 13:08:36 614
原创 jsoup的Elements类
一、简介该类是位于select包下,直接继承自Object,所有实现的接口有Cloneable, Iterable, Collection, List类声明:public class Elements extends Object implements List, Cloneable可以使用Element.select(String) 方法去得到Elements 对象。二、构造方法1、p...
2018-11-01 21:14:03 409
转载 【转载保存】网页提取正文算法汇总
正文抽取算法:1.Html2Article :http://www.cnblogs.com/jasondan/p/3497757.html2.基于行块分布函数的网页正文抽取算法代码实现https://blog.csdn.net/leiguang55555/article/details/51959646源码下载:https://blog.csdn.net/red4711/article/d...
2018-11-01 17:16:29 1501
转载 【转载保存】java牛逼的开源项目汇总
http://blog.longjiazuo.com/archives/2625?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io
2018-11-01 16:58:27 719
转载 【转载保存】Jsoup解析html常用方法
首先我们要清楚 class的继承关系Document 继承于 Element 继承于 Node 继承于 Object首先 我们先研究一下 Element 中的函数作用:01 addClass(String className) --> 添加一个class名字 到这个元素的class属性上.02 after(Node node) &nb...
2018-11-01 10:19:50 290
文本乱码识别工具包下载
2020-12-03
全国省市直辖市文档
2018-10-18
java需要用到的redis包
2018-10-15
json所需要的包
2018-10-15
jetty9分拆的各个包下载
2018-10-15
java用到的所有常用jar包(mysql、json、ssm、websocket...)
2018-10-12
web中常用api
2018-02-19
线性表定义与实现
2018-02-19
欧拉函数公式以及证明
2018-02-19
图论的课件
2018-02-19
动态规划ppt详解
2018-02-19
网络流初步
2018-02-19
Polya定理以及知识点详解
2018-02-19
treap代码实现
2018-02-19
ACM培训演讲稿
2018-02-19
Polya定理Polya定理Polya定理
2017-11-09
动态规划动态规划概念 最长上升子序列 最长公共子序列 矩阵连乘问题 背包问题 树形DP 状态压缩DP
2017-11-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人