自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

tao_jiayun的博客

原创 java动态代理实现基于HTTP协议的远程调用

背景很多应用在进行多租户改造的时候，需要将原来的单体应用拆分成一个master和多个agent，master部署在公司，agent部署在租户的环境，master通常用于调度转发、业务管理，agent主要是在客户环境中承担具体业务处理，诸如对接大数据组件，承担计算任务等。而多数情况下master和agent之间是跨公网调用，不是处于同一内网环境通过服务调用的。而真正可以处理具体业务是在agent端，所以在跨公网的条件下基于tcp协议如RMI是行不通的，所以要进行restful的改造。为了尽量不影响现有应

2020-08-09 20:47:43 1086

原创 java与scala，异步执行的比较

java与scala，异步执行的比较近期项目需实现针对批量数据进行相关计算并返回数据的操作。具体实现为：从缓存中读取批量数据；针对每条数据进行相关计算；计算结果再进行相关操作，比如过滤，求和等；批量结果返回。客户端等待返回数据进行展示。这样就要求每次计算批量数据时，速度够快，毫秒内响应。否则客户端就处于长期等待的状态。在实现时，比较了java与scala的实现方式，得出使用sca...

2019-09-05 00:01:38 651

原创 webmagic scheduler源码分析

webmagic scheduler源码分析项目中使用webmagic作为爬虫爬取框架，需要实现2个功能：对于一些未爬取到的URL，需要做重试机制，重复爬取，设置爬取次数，直至爬取到网页内容或者达到重试次数。用户点击停止，则停止对剩余URL的爬取。这二个功能的添加都是对scheduler模块进行改造，webmagic的scheduler模块负责管理待抓取的URL，以及一些去重的工作。W...

2019-07-14 17:28:13 465

原创总结爬虫相关（以电商淘宝为例）

总结爬虫相关（以电商淘宝为例）首先对于爬虫，我一直持有的想法就是你会写代码，你就会写爬虫（当然以我现在接触到的以及使用过的语言而言使用过的编程语言有python和java，此处就特指java和python）。掌握了一门语言的语法，会写几个案例，可以跑起来，一些简单的逻辑实现代码可以看得懂，那么我就觉得你可以实现一个简单的爬虫了。前公司一直有写业务的同学问我如何写爬虫，甚至有工作四年的同学来问，我...

2019-06-30 17:51:11 7524 4

原创记一次多线程读取文件并进行URL爬取的代码设计

记一次多线程读取文件并进行URL爬取的代码设计近期入职新公司，两周内知识的输入是以往的好几倍，值得将近期学到的东西记录一下。第一个完成的任务是从HAWQ的数据表中拉取千万级别数量的URL到文件中，程序对不同URL进行爬取相关内容，爬取内容很简单，无非是文章标题、摘要等，比较复杂的是千万级别数量URL的爬取速度以及文件读取方式，保证在速度快的情况下，爬取正确率稳定在80%以上。设计思路首先需...

2019-05-08 00:51:23 482

原创 java平台理解

java平台理解一次编译到处运行这是java跨平台的一种特性，并不是说java语言具有这种特性，而是在不同平台上都有可以让java运行的环境而已。程序从源代码到运行这个阶段，经历：编码-&gt;编译-&gt;运行-&gt;调试，而java是在编译阶段体现了跨平台的特点。大致可概括为将.java文件编译为与平台无关的字节码.class文件，.class文件即为到处可运行的文件，然后jav...

2018-12-04 00:30:30 244

原创京东等电商爬虫问题与总结（二）

京东等电商爬虫问题与总结（二）京东这一段时间比较忙，更新也不及时。。。下面将总结一下在写京东爬虫的时候，遇到的一些问题。京东的页面，列表页的数据基本包含了所有的信息了，详情页里面也没有什么有价值的信息了。所以我的数据都是取自于列表页。并且京东的数据经过我多次测试（主要是公司很多运营同学在使用。。。），他是不反爬的。因为我使用的是webmagic这个框架，所以页面下载、解析这些继承...

2018-08-17 23:35:21 13765 1

原创淘宝、天猫等电商爬虫问题与总结（一）

电商爬虫问题与总结（一）总结之前，先放上github地址，有任何想法和建议的欢迎指出：电商爬虫此次电商数据采集器（爬虫）共采集10个电商平台（淘宝、天猫、京东、国美、苏宁、拼多多、亚马逊、1688、一号店、慧聪）的数据，这里将公司的业务需求全部去除掉，基本的电商数据是全的。下面简单说一下整个的思路：采集器使用activemq作为消息队列，采用生产者和消费者的模式，用来分发任务与...

2018-07-22 21:31:28 14058 3

原创关于数据处理

7月24日入职实习至今已三个多月，我很幸运一开始可以从事自己喜欢的职业：数据处理工程师（很感谢一位学长的内推），工作刚起步忙忙碌碌，加之自己惰性难改，三个多月后才开始总结工作，总结自己学到的东西，还是希望自己能够做到输入大于输出。首先说一下工作的环境，刚入职就是直接跟着项目走，跟着的这个项目属于比较大的一个项目，据我了解是有7家公司合作推进，包括阿里、数梦工厂等，阿里作为牵头人。工作的

2017-11-04 19:00:37 425

原创豆瓣图书数据分析

前几天上网，无意中看到有人抓取了知乎的数据用户信息做数据分析，其实知乎爬虫的数据分析，我早就看到过，不过这次自己也想分析一下数据，零零总总写了许多次爬虫了，都是把数据抓下来放进数据库里，有的就是初步清洗了一下，有的干脆抓下来，往数据库里面一扔，就抛下不管。以前在做爬虫时，都把抓取放在第一位，后来我觉得抓取只是爬虫的第一步（当然，抓取的程序设计好，会节约很多时间），爬虫抓...

2017-06-19 09:22:29 18654 16

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zhiwei0701 CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：浙江省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

10: 原创

24万+: 周排名

171万+: 总排名

5万+: 访问

: 等级

543: 积分

45: 粉丝

22: 获赞

24: 评论

141: 收藏

私信

关注

热门文章

分类专栏

最新评论

豆瓣图书数据分析
m0_62440863: 你有数据了嘛，我也急求，要是有的话可以分享一下嘛
豆瓣图书数据分析
m0_56577956: 您好，我想做一个图书推荐系统，但是现在豆瓣上线了新的放爬虫机制，可以提供一份数据吗我的qq是3524963026如果可以不胜感激
豆瓣图书数据分析
m0_59601007: 你好，这个数据集能发我一份吗，我的邮箱是3207063616@qq.com，万分感谢
豆瓣图书数据分析
自在飞花69: 您好，我想做一个图书推荐系统，但是我的爬虫学的不是很好，请问您可以提供一份数据吗？我的邮箱是2194939765@qq.com，万分感谢！
豆瓣图书数据分析
会飞的三文鱼呀: 感谢分享！

最新文章

提示

确定要删除当前文章？

取消删除