爬虫
Victor-Chi
这个作者很懒,什么都没留下…
展开
-
scrapy Mongodb 内存(memory)增长
很开心今个遇到了一个问题,scrapy使用爬虫的时候内部内存不受控制的增长.之前使用的数据库一直都是mysql,严格遵守 item,spider,pipeline这个三个顺序来写的.在运行的时候单个spider的大小一直很稳定.60Mb以内.现在遇到的问题是,我最近采集数据切换到了MongoDB,因为非结构化,我直接在内容部使用dict而不是使用item来运行.这个情况导致我运行spide...原创 2018-06-29 11:14:34 · 483 阅读 · 0 评论 -
xpath 准确匹配 跟 模糊匹配属性
使用text()来做标记,用来确定位置.测试文本"> <tbody> <tr class="result1"> <th class="field-name">Type</th>原创 2018-06-28 15:44:09 · 20855 阅读 · 0 评论