爬虫
文章平均质量分 56
胖超人
chubby superman salutes you
展开
-
爬虫爬取京东部分需要的数据
#_*_coding=utf-8 _*_#__author__ = 'Administrator'from selenium import webdriverfrom bs4 import BeautifulSoupimport sysimport urllib2import timefrom compiler.ast import flattenimport reimpor...原创 2018-08-02 17:52:57 · 1763 阅读 · 2 评论 -
爬虫爬取京东部分需要的数据,遇到的一些问题总结
hi all: 上一篇博客中写的代码有一些问题。 问题一:beautifulsoup运行时占用内存直线上升的问题。 运行时内存占用严重经过我后来的分析,问题主要产生在re_goodsname = last_list[0].string这行代码上,只要将.string改成.text即可。原因是re_goodsname = last_list[0].string类型是beautisoup的自定义...原创 2018-08-15 11:23:45 · 7173 阅读 · 2 评论 -
爬京东部分数据,python2.7,beautifulsoup,代码奉上
#_*_coding=utf-8 _*_#__author__ = 'Administrator'from selenium import webdriverfrom bs4 import BeautifulSoupimport sysimport timefrom compiler.ast import flattenimport requestsimport reimpo...原创 2018-08-16 18:09:09 · 672 阅读 · 0 评论 -
python爬虫爬取百度图片
爬虫爬取百度图片因公司业务需要,而且公司人手不足,我这个测试工程师需要临时客串一下其他职位,所以,由我来爬取百度图片。说明1、最近稍微有点儿忙,没顾得上整理。而且代码量比较少,所以注释比较少。2、如果需要直接使用我的代码,请将相应路径文件名称更改。具体使用方法我会在下面代码中详细介绍。3.python2.7实现思路及功能1.读取excel中第一列的关键词,保存在列表中,等待遍历2....原创 2018-11-22 17:53:40 · 1022 阅读 · 0 评论 -
爬取京东部分数据,使用beautifulsoup4,遇到异步加载的解决办法。
异步加载的网页,解决办法亲们:作为一名测试人员,时不时的客串下别的角色亦是我的工作职责。公司需要爬取京东部分数据,不可避免的会遇到技术问题。废话不多说,说下异步加载怎样应对。科普一下先,老鸟请跳过。异步加载也叫非阻塞模式加载,浏览器在下载js的同时,同时还会执行后续的页面处理。简单的来讲,beautifulsoup解析的html文件,与在浏览器中网页呈现的html并不完全一致(尤其是商品价格,...原创 2019-01-24 20:55:26 · 2986 阅读 · 3 评论