网站爬取 一二事

2018 / 4 / 23

哇 昨晚开20 个进程爬取  https://www.rockauto.com/ 

3级之后 达到百万级  数目

然后呢 爬了 70W 左右 发现 数据对不上 原来是链接 有问题 

爬取的url 链接一定要去 格式 常见有 空格   amp; 这些都是自动解析出来的  

但是目标网站不一定能识别 

所有 链接去格式 

2018 / 4 / 27

关于爬取网页数据 到分析数据  转储数据库的问题

关于前辈经验  一份数据表不宜过大 超过200w条的数据就建议分表

理论上来说  纯数字的表 要比 数字 英文 组合的数据表要快 

在超过200w 混合表 和 1千w 纯数字表    建议分表

原因:1 . 数据表大  处理速度开始直线下降

   2 . 数据表不好后期迁移

爬取网页过程中  一般来说 都是每一级页面存一个表

小技巧 : 把下级所需要的数据整合到单表 

    也就是说 在链接数据库的时候尽量不要联表取数据 数据量一旦过多 速度是瓶颈

转载于:https://www.cnblogs.com/VictoriaMR/p/8932059.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值