自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 记录一下非常好用的截图软件

叫做 FastStone Capture滚动截屏利器

2016-12-26 15:23:26 311

原创 VirtualBox安装CentOS-6.5

在使用VirtualBox安装CentOS时程序报错:FATAL:No bootable medium found ! System halted.    解决方案:  明细那里一定要把自己的镜像文件分配到当前创建的虚拟机上

2016-12-18 22:19:05 261

原创 python常见库的安装(填lxml库安装的坑)

lxml库:  如果使用:        pip3 install lxml  windows系统安装时10个最少8个会出错,因为lxml库是C语言实现的,即使安装了visual C++ 2015,还是会有新的错误出现。  这里使用下载lxml的whl文件进行安装。下载地址为:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,根据

2016-11-13 12:01:22 2210

原创 小规模爬取豆瓣所出现的问题

闲来无事想去爬爬豆瓣的动漫,然后定期爬取解决下剧荒的问题,发现豆瓣对爬虫的存在并不是很友好。  首先出现的就是验证码的问题,在获得全部的链接后准备逐个访问获取数据时明显感觉到爬取数据有所下降,300个左右的数据用了7分钟左右。其次在爬取300多个数据后,程序报错,返回了response,豆瓣服务器积极拒绝掉了,重新对网页检查了下发现网页的Cookie更换了,但是在更换Cookie后爬了同样的数

2016-11-10 18:14:03 600

原创 大规模数据爬取(BeautifulSoup)

工作流程图如下:# 使用MongoDB作为数据库进行数据储存。总体结构分为四层: 获取主界面所有大类的链接 spider1(url_links)构建抓取详情页信息的spider2(get_item_information)构建获得列表页内所有item链接的函数(get_item_links)采用多进程的方式整合所有函数,并进行数据爬取spider1:导入所需要的库(Be

2016-10-29 22:12:59 386

原创 涉及详情页的信息爬取

构建两个函数,Func A 用来抓取详情页的数据,例如标题,副标题,图片等,Func B 用来抓取列表页的链接,依次访问Func B函数所抓取的链接即可。from bs4 import BeautifulSoupimport requestsimport timedef get_info(page): urls=get_links_from(page) #调用获

2016-10-26 22:22:16 716

原创 未涉及详情页的信息爬取

所获取信息的url来自于列表页,而非详情页from bs4 import BeautifulSoupimport requestsimport timeimport pymongoclient=pymongo.MongoClient('localhost',27017) #引用MongoDBCeshi=client['Ceshi'] #

2016-10-24 15:04:12 182

原创 python简易爬虫制作

编译环境:pycharm 4.5.3python版本:3.5.1首先从pycharm库中下载并安装BeautifulSoup4,lxml,requests,time插件以KnewOne为例:from bs4 import BeautifulSoupimport requestsimport timeurl='https://knewone.com/things'

2016-10-22 16:47:19 487

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除