- 博客(5)
- 收藏
- 关注
原创 scrapy_redis分布式爬虫爬取亚马逊图书
scrapy_redis分布式爬虫爬取亚马逊图书最近在学习分布式爬虫,选取当当图书进行了一次小练习网址,https://www.amazon.cn/gp/book/all_category/ref=sv_b_0前期准备安装 redis 数据库,网上由教程请自行谷歌安装 Scrapy 和 scrapy-redispip install scrapy(如果出现问题请自行谷歌解决,需要v...
2019-04-24 10:40:43 566
原创 基于PyMySQL的数据库连接
基于PyMySQL的数据库连接PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。PyMySQL是一个很好用的模块,但是还是要进行简单的学习才能掌握,为了方便使用,对pymysql进行了...
2019-04-23 13:56:13 170
原创 Scrapy_redis分布式爬虫爬取当当图书
Scrapy_redis分布式爬虫爬取当当图书最近在学习分布式爬虫,选取当当图书进行了一次小练习前期准备安装 redis 数据库,网上由教程请自行谷歌安装 Scrapy 和 scrapy-redispip install scrapy(如果出现问题请自行谷歌解决,需要vc环境)pip install scrapy-redis流程分析主要抓取内容为每个"大分类下的下分...
2019-04-23 13:30:41 239
原创 Scrapy爬取京东图书信息
Scrapy爬取京东图书信息最近在学习scrapy,闲来无事,找了个比较容易的网站进行了联系网址,京东图书主要抓取内容为 “黑色粗体大分类下的小分类对应的每个小分类的详情页列表中的图书信息内容”主要代码spider# -*- coding: utf-8 -*-import scrapyfrom copy import deepcopyimport jsonclass...
2019-04-22 23:10:10 1335 2
原创 关于爬虫爬取百度贴吧数据使用xpath无法取得数据的几种解决方法
关于爬虫爬取百度贴吧数据使用xpath无法取得数据的几种解决方法最近在学习爬虫,没事时,尝试爬取百度贴吧,发现使用xpath提取数据时,在浏览器中使用xpath调试时,可以很成功的拿到数据,但是代码中无法取到。将整个页面下载到本地后发现一个很神奇的事情。百度贴吧里需要提取的标签居然被注释了。。。。。。。。。。百度还是会玩啊,这算是反爬虫的一种莫。。。。。。。解决方法user-ag...
2019-04-20 12:54:43 1153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人