- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 分布式爬虫架构设计
分布式爬虫架构设计最近又和爬虫干上了,有3000万个搜索关键词,1个关键词搜索结果有多个,每个结果对应一个ID,每个ID的对应的目标页面由多个请求接口返回的json组合而成。1.在架构上使用kafka分发搜索关键词,利用了kafka同一消费组只消费一次的特性。2.利用redis进行id去重。3.在扩展性上利用kafka的consumer balance,实现爬虫进程的可以随时增加减少(当然进程数不应
2017-07-10 13:33:01 2723
原创 线性回归与梯度下降
线性回归与梯度下降现实生活中我们可以通过一个房子的地点、楼层、朝向等信息(在机器学习中称这些信息为feature,特征)估算一个房子的平米价格。估算价格时我们需要知道一些房子的数据,我们凭空去猜一个房子的价格得到准确结果的概率不大。这些我们事先知道的房子数据被称为训练数据。 可以看成我们脑海中有一个函数帮助我们估计结果的值。在计算机中去拟合训练数据,也就说我们通过函数得到的结果不会和实际结果差的太
2017-07-09 13:46:50 447
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人