python爬虫基础
照片怎么加不上
这个作者很懒,什么都没留下…
展开
-
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128) 报错
开始想的是编码错误,于是乎在顶部加入代码# -*- coding: utf-8 -*-继续报错,于是乎从网上查询,又加上了一行代码,解决问题import sysreload(sys)sys.setdefaultencoding('utf8')...原创 2018-05-21 10:36:12 · 316 阅读 · 0 评论 -
python爬虫十四:selenium模拟浏览器+chrome 批量下载漫画
转:https://zhuanlan.zhihu.com/p/26701898# -*- coding: utf-8 -*-from selenium import webdriverfrom time import sleepimport osimport requests#批量下载漫画#https://manhua.sfacg.com/#创建文件夹d...转载 2018-06-01 10:05:14 · 1549 阅读 · 0 评论 -
python爬虫十三:selenium模拟浏览器+chrome+windows
最近一直在学习爬虫,教程都是phantomjs的浏览器,听说性能好,速度快,呵呵,但是phantomjs这个玩意前不久和selenium模块分手了,他们都震惊了,我也跟着震惊一下。。。不扯淡了,下面是介绍在selenium下的chrome浏览器的配置1.现在大神那里下载chrome的驱动点击打开链接2.下载好后,将驱动复制到python目录下3.下载就要下载一个版本对应的浏览器5.ok在网上下载对...原创 2018-05-31 16:08:45 · 3525 阅读 · 0 评论 -
python爬虫十二:middlewares的使用,爬取糗事百科
转:https://zhuanlan.zhihu.com/p/267018981.项目结构 2.user-agent的代理# -*- coding: utf-8 -*-'''自定义scrapy框架的user-agent头从一个被良好维护的user-agent列表里随机筛选合适的user-agent防止封锁'''from scrapy.contrib.down...转载 2018-05-31 11:08:32 · 2747 阅读 · 0 评论 -
python爬虫十二:爬取快速ip代理,攻破503
转:https://zhuanlan.zhihu.com/p/267018981.自定爬虫方法# -*- coding: utf-8 -*-import scrapyimport requestsfrom proxy.items import ProxyItemclass DxdlspiderSpider(scrapy.Spider): name = 'dxdlspide...转载 2018-05-31 09:25:31 · 7307 阅读 · 0 评论 -
python爬虫十一:scrapy框架爬取天气,存入数据库
小白学习:转:https://zhuanlan.zhihu.com/p/268854121.cmd下scrapy startproject 项目名2.我一般都是在pycharm中编写代码,所以我会在idea中引入项目,这里不知道如何在pycharm中下载scrapy模块的童鞋,可看我前面的博客:进入文件下scrapy genspider 文件名 爬取的网站scrapy genspider SZt...转载 2018-05-30 15:11:02 · 2094 阅读 · 1 评论 -
python爬虫十:scrapy的第一项目
第一步:在windows随意一个磁盘里进去cmd系统:scrapy startproject 项目名第二步:cd 进入项目名 scrapy genspider 新建的文件名 网站名(注意不能有协议:http://或者https://)网站我写的是 scrapy getspider demo zimuku.com编写完成后:scrapy crawl demo(文件名)...转载 2018-05-30 09:25:55 · 220 阅读 · 0 评论 -
python爬虫八:python3.6下如何安装Scrapy 模块(error: Microsoft Visual C++ 14.0 is required. )
亲身经历很是痛苦第一步:首先现在压缩包下载zip,上个图片有英文不好的同学第二部:从网上看了很多方法,只有一种成功了,解压zip文件,内部结构是第三步:将zip文件复制到解压的文件中,别懵逼,就是放进去第四步:在当前文件下cmd,执行python setup.py install到此就完成了setuptools的安装第五步:安装pip安装教程第六步:这时已经安装好了pip,setuptools,但...原创 2018-05-29 10:56:06 · 766 阅读 · 0 评论 -
python爬虫四:爬取贴吧数据
# -*- coding: utf-8 -*-import requestsimport timefrom bs4 import BeautifulSoupimport ioimport sys#sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gbk') #改变标准输出的默认编码#生活大爆炸吧''' # 标题&...转载 2018-05-24 18:06:06 · 8281 阅读 · 1 评论 -
python爬虫九:如何在pycharm中安装scrapy,创建一个scrapy项目
亲身经历,非常痛苦1.网上尝试各种办法都没成功~,很是蛋疼,最后只能死马当活马医,http://landinghub.visualstudio.com/visual-cpp-build-tools更新c++地址2.下好后,静静等静静的。。。。,直到安装完成,重启电脑,在pycharm中安装scrapy成功。。3.这时如何创建一个scrapy的项目呢?第一步:在随意一个文件上创建一个文件夹,在该位置...原创 2018-05-29 17:34:39 · 3129 阅读 · 0 评论 -
python爬虫三:bs4库lxml
转:https://zhuanlan.zhihu.com/p/26701898# -*- coding: utf-8 -*-import bs4#使用lxml方式soup=bs4.BeautifulSoup(open("demo.html"),"lxml")print soup.prettify()'''<!DOCTYPE html><html lang="en...转载 2018-05-24 13:50:47 · 811 阅读 · 0 评论 -
python爬虫二:bs4库中的BeautifulSoup模块
转:https://zhuanlan.zhihu.com/p/26701898# -*- coding: utf-8 -*-#BS4库导入bs4模块from bs4 import BeautifulSouphtml="html<html><head><title>The Dormouse's story</title></head>...转载 2018-05-24 10:59:46 · 537 阅读 · 0 评论 -
python爬虫一:阅前导读
转:https://zhuanlan.zhihu.com/p/26701898# -*- coding: utf-8 -*-import requestsr=requests.get("http://www.baidu.com")#http返回的状态print r.status_code #200#http返回的headersprint r.headers'''{'X-Ca...转载 2018-05-24 10:14:22 · 264 阅读 · 0 评论 -
python爬虫七:爬取音乐V榜
转:https://zhuanlan.zhihu.com/p/26701898# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport random#爬取音乐V榜def get_html(url): try: r=requests.get(url,timeout=...转载 2018-05-28 18:42:40 · 587 阅读 · 0 评论 -
python爬虫六:反爬虫技术种类
反爬虫技术:首先来介绍一下什么是反爬虫技术:最近“大数据的兴起“,市面上出现了太多以数据分析为核心的创业公司,他们不仅要写出对数据操作分析的算法,更是要想方设法的获得大量的数据,这些数据从何而来呢?最方便的途径自然是互联网,所以就有很多人写的爬虫 没日没夜的在互联网上”横行“,有些速度太快的爬虫甚至会让网站不堪重负,甚至宕机!为了应对这种困扰,很多网站的运营者就想出了很多 反爬虫 的技术这大概分为...转载 2018-05-28 18:41:12 · 651 阅读 · 0 评论 -
python爬虫六:爬取电影图片及简介
# -*- coding: utf-8 -*-#2345电影排行榜import requestsfrom bs4 import BeautifulSoup#获取网站的通用类def get_html(url): try: r=requests.get(url,timeout=30) r.raise_for_status() p...转载 2018-05-28 14:21:59 · 1496 阅读 · 0 评论 -
python爬虫五:爬取小说,下载到本地
# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoup'''qula.com小说爬虫下载'''def say(): print ("aaa")say()def get_html(url): try: r=requests.get(url,timeout=3...转载 2018-05-28 13:26:13 · 492 阅读 · 0 评论 -
python爬虫十五:爬取12306火车票信息
转:https://zhuanlan.zhihu.com/p/26701898 # -*- coding: utf-8 -*-'''获取12306城市名和城市代码的数据文件名: parse_station.py'''import requestsimport reimport json#关闭https证书验证警告requests.packages.urllib3.disa...转载 2018-06-01 15:14:36 · 9024 阅读 · 0 评论