大数据/网络爬虫
文章平均质量分 87
hemeinvyiqiluoben
这个作者很懒,什么都没留下…
展开
-
使用JAVA Get POST 抓网页的练习代码
private static void sendGet(String strUrl){try{URL url=new URL(strUrl);URLConnection urlc=url.openConnection();urlc.setRequestProperty("accept", "*/*");urlc.setRequestProperty("connection",原创 2017-05-02 22:56:16 · 472 阅读 · 0 评论 -
网上找到的爬虫和反爬虫总结
爬虫策略:1、(反爬虫专用)代理池了。你们可以去淘宝看下,几十万的代理价值多少钱。我们就不谈到处都有的免费代理了。2、用python写的爬虫是最薄弱的,因为天生并不适合破解反爬虫逻辑,因为反爬虫都是用javascript来处理。3、爬去一个公司的数据时,如果PC的页面爬不到,试试H5页面。 因为这两个页面通常是两个部门做的4、检测爬到的数据是否是对方故意造假的数据:①、人工抽查; ②、他们...转载 2018-03-13 08:36:01 · 4567 阅读 · 0 评论 -
那些你不知道的爬虫反爬虫套路
转自:http://36kr.com/p/5079327.html相爱相杀的爬虫与反爬虫编者按:本文来自微信公众号“携程技术中心”,作者 崔广宇,携程酒店研发部开发经理,与去哪儿艺龙的反爬虫同事是好基友。携程技术中心“非著名”段子手;36氪经授权发布。前言爬虫与反爬虫,是一个很不阳光的行业。这里说的不阳光,有两个含义。第一是,这个行业是隐藏在地下的,一般转载 2018-03-12 16:41:13 · 360 阅读 · 0 评论 -
hadoop之 hadoop用途方向
转自: http://blog.csdn.net/zhang123456456/article/details/77657807hadoop是什么?Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapre转载 2018-03-04 23:21:07 · 355 阅读 · 0 评论 -
机器学习算法工程师面试总结
转自北邮人论坛2017年即将过去,今年是忙碌的一年,从2月17还没开学就来学校,到现在12月初,工作的事情终于尘埃落定,现将这一段经历写下来,希望能帮助来年找工作的学弟学妹,同时,对自己来说,也是一年的工作总结,总结经验教训,对自己一个提升。简单介绍一下,北邮本硕,要找的岗位主要是算法工程师(机器学习方向)。算法工程师找实习的时候,最终的结果是找到了四家:亚马逊、京东、滴滴、腾讯地图。找工转载 2017-12-07 20:39:54 · 9551 阅读 · 1 评论 -
在阿里云上搭建 Spark 实验平台
转自: http://www.cnblogs.com/NaughtyBaby/p/5402569.html之前在自己的笔记本上运行 Python 代码,有些要运行一天多,一关机就前功尽弃,很不方便,所以才有租用阿里云服务器的想法,用了同学租的一台用了两天又觉得不够使,索性就自己租了三台,配置如下,三台一共约 320 块。CPU: 1核内存: 2048 MB转载 2017-07-26 23:30:14 · 2837 阅读 · 5 评论 -
在阿里云上搭建hadoop
转自:http://blog.csdn.net/feverwindlong/article/details/44835839租了四台阿里云服务器,操作系统是ubuntu 14.04 64位,把它改造成Hadoop系统。1. 修改bash提示符,显示当前设备身份阿里云的主机名难记,修改.bashrc,修改命令提示符,增加属性显示。PS1='${debian转载 2017-07-26 23:29:17 · 3723 阅读 · 0 评论 -
我的AI转型之路与AI之我见(非985211的奋斗路程与视角)
转自: http://blog.csdn.net/sileixinhua/article/details/75203725前言我是一名传统网页(PHP+ruby)和应用开发(Android)转型AI相关开发的码农。在非985211高校出身的情况下,我前期自己买书学习,到现在考研上课全身心的投入智能系统的开发当中来,在算法当中理解了数据和模型,对一些基本问题的转载 2017-07-18 14:25:05 · 432 阅读 · 0 评论 -
搭建Nginx+Java环境
转自:http://blog.csdn.net/zhouchao001/article/details/50284853一、简介:Tomcat在高并发环境下处理动态请求时性能很低,而在处理静态页面更加脆弱。虽然Tomcat的最新版本支持epoll,但是通过Nginx来处理静态页面要比通过Tomcat处理在性能方面好很多。二、下载安装:下载nginx转载 2017-07-06 15:33:27 · 225 阅读 · 0 评论 -
BT原理分析2
转自:http://blog.csdn.net/it_man/article/details/6602771BitTorrent协议。BT全名为BitTorrent,是一个p2p软件,你在下载download的同时,也在为其他用户提供上传upload,因为大家是“互相帮助”,所以不会随着用户数的增加而降低下载速度。下面是一般用ftp,http等分享流程:转载 2017-06-26 14:44:44 · 470 阅读 · 0 评论 -
BT下载原理简介
1. BT下载原理简介BT是一种用来进行文件下载的共享软件(不是“变态”),全名叫"BitTorrent"。BitTorrent是一个多点下载的源码公开的P2P软件,使用非常方便,就像一个浏览器插件,很适合新发布的热门下载。其特点简单的说就是:下载的人越多,速度越快 。 一般来讲,下载是把文件由服务器端传送到客户端,例如FTP,HTTP,PUB等等。工作原理如下图:但是转载 2017-06-26 14:27:58 · 28754 阅读 · 3 评论 -
一个疑似高德数据分析的招聘要求
职位类型:Java发布时间:2017-07-10有效日期:2017-08-09【资深数据分析与挖掘高级工程师/专家 】岗位职责: 1.数据统计分析:高德地图业务用户行为数据统计与分析,产品效果评估与分析,为产品策略优化迭代提供强有力的数据支持 2.数据挖掘:从海量日志数据中发掘有价值的信息,建立多个维度上的模型,用于指导产品优化 岗位要求: 1.数学、统计、金融、计算机或者相关专业...转载 2017-07-10 20:39:06 · 730 阅读 · 0 评论 -
用通俗易懂的话说下hadoop是什么,能做什么
hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任转载 2017-05-17 12:38:01 · 1249 阅读 · 0 评论 -
java socket - tcp 网络聊天室
服务端:import java.io.*;import java.net.*;import java.util.*;public class ChatRoomServerExec {private static ArrayList alsocket = new ArrayList();private static Socket socketMain = null;原创 2017-05-08 09:10:05 · 510 阅读 · 0 评论 -
java socket 服务器代码 自动接收文件并存储服务器 - 服务器多线程支持和多个客户端同时通信:
public static void main(String[] args) {try{ServerSocket ss=new ServerSocket(666);ss.setSoTimeout(0);System.out.println("accept超时时间设置为: "+ss.getSoTimeout());int iAccCount=0;while(true){S原创 2017-05-05 19:46:55 · 662 阅读 · 0 评论 -
你刚才在淘宝上买了一件东西
转自:https://kb.cnblogs.com/page/132716/ 你发现快要过年了,于是想给你的女朋友买一件毛衣,你打开了www.taobao.com。这时你的浏览器首先查询DNS服务器,将www.taobao.com转换成ip地址。不过首先你会发现,你在不同的地区或者不同的网络(电信、联通、移动)的情况下,转换后的IP地址很可能是 不一样的,这首先涉及到负载均衡的第一步,通...转载 2018-08-20 13:11:31 · 252 阅读 · 0 评论