自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 scrapy_redis分布式爬虫爬取亚马逊图书

scrapy_redis分布式爬虫爬取亚马逊图书最近在学习分布式爬虫,选取当当图书进行了一次小练习网址,https://www.amazon.cn/gp/book/all_category/ref=sv_b_0前期准备安装 redis 数据库,网上由教程请自行谷歌安装 Scrapy 和 scrapy-redispip install scrapy(如果出现问题请自行谷歌解决,需要v...

2019-04-24 10:40:43 566

原创 基于PyMySQL的数据库连接

基于PyMySQL的数据库连接PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。PyMySQL是一个很好用的模块,但是还是要进行简单的学习才能掌握,为了方便使用,对pymysql进行了...

2019-04-23 13:56:13 170

原创 Scrapy_redis分布式爬虫爬取当当图书

Scrapy_redis分布式爬虫爬取当当图书最近在学习分布式爬虫,选取当当图书进行了一次小练习前期准备安装 redis 数据库,网上由教程请自行谷歌安装 Scrapy 和 scrapy-redispip install scrapy(如果出现问题请自行谷歌解决,需要vc环境)pip install scrapy-redis流程分析主要抓取内容为每个"大分类下的下分...

2019-04-23 13:30:41 239

原创 Scrapy爬取京东图书信息

Scrapy爬取京东图书信息最近在学习scrapy,闲来无事,找了个比较容易的网站进行了联系网址,京东图书主要抓取内容为 “黑色粗体大分类下的小分类对应的每个小分类的详情页列表中的图书信息内容”主要代码spider# -*- coding: utf-8 -*-import scrapyfrom copy import deepcopyimport jsonclass...

2019-04-22 23:10:10 1335 2

原创 关于爬虫爬取百度贴吧数据使用xpath无法取得数据的几种解决方法

关于爬虫爬取百度贴吧数据使用xpath无法取得数据的几种解决方法最近在学习爬虫,没事时,尝试爬取百度贴吧,发现使用xpath提取数据时,在浏览器中使用xpath调试时,可以很成功的拿到数据,但是代码中无法取到。将整个页面下载到本地后发现一个很神奇的事情。百度贴吧里需要提取的标签居然被注释了。。。。。。。。。。百度还是会玩啊,这算是反爬虫的一种莫。。。。。。。解决方法user-ag...

2019-04-20 12:54:43 1153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除