![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java
文章平均质量分 83
15005153460
这个作者很懒,什么都没留下…
展开
-
网页爬虫原理及java实现
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网翻译 2016-12-02 12:27:59 · 9556 阅读 · 1 评论 -
网页爬虫技术浅析
在万维网飞速发展的网络背景下,搜索引擎在人们的生活工作中无疑扮演着重要的角色,而网络爬虫则是搜索引擎技术的最基础部分。一、网络爬虫概述在搜索引擎成为主流检索工具的今天,互联网上的网络爬虫各式各样,但爬虫爬取网页的基本步骤大致相同:1) 人工给定一个URL作为入口,从这里开始爬取。万维网的可视图呈蝴蝶型,网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页,而门户网站中包含大量翻译 2016-12-06 15:58:34 · 6170 阅读 · 1 评论 -
金融行业风控概念及分析
互联网金融是指以依托于支付、云计算、社交网络已及搜索引擎等互联网工具,实现资金融通、支付和信息中介等业务的一种新兴金融。做好互联网金融,要立足于三个基本点:平台、数据、金融。而在这其中,大数据,作为连接平台、用户、金融等方面的工具,有着举足轻重的意义。 由于互联网金融涉及广泛、囊括多个领域,各领域的风控策略也不尽相同,不能一概而论,下面就大数据风控在互联网金融领域的运用做一个大致的分类和解析翻译 2016-12-06 15:59:54 · 4642 阅读 · 0 评论 -
cnet6.5 32bit 安装spark
1、查看系统环境[plain] view plain copy print?cat /etc/redhat-release uname -r uname -m cat /etc/redhat-releaseuname -runame -m关闭所有服务器的防火墙[plain] view plain copy p转载 2016-12-25 21:41:40 · 621 阅读 · 0 评论 -
网页爬虫原理及java实现
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网转载 2017-05-06 16:20:10 · 822 阅读 · 0 评论 -
java实现经纬度勾股定理计算距离
package com.hive;public class GetDist{private static final double EARTH_RADIUS = 6378137;//赤道半径(单位m)private static double rad(double d) { return d * Math.PI / 180.0; }原创 2017-06-28 10:11:12 · 3547 阅读 · 1 评论 -
欢迎使用CSDN-markdown编辑器
摘要:本文将要说明如何使用Spark来对Hive进行操作1、打jar包,提交Spark任务 通过提交spark任务的方式,如下面的scala代码。之后需要将成代码打包成一个jar包,然后提交到spark中去.一般情况下生产上建议使用这种方法,可以灵活控制sql里的各项参数[plain] view plain copy print?val conf = new SparkConf() va翻译 2017-12-01 13:54:01 · 286 阅读 · 0 评论