![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
qq_41386300
这个作者很懒,什么都没留下…
展开
-
爬取糗事百科案例
from random import choiceimport requestsimport reuser_agents=[ "User-Agent:Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50", "User-Agen...原创 2018-10-20 22:09:40 · 169 阅读 · 0 评论 -
pandas之Series
常见的数据类型:一维: Series二维: DataFrame三维: Panel …四维: Panel4D …N维: PanelND …查看pandas版本信息print(pd.__version__)1. 创建Series对象1). 通过列表创建Series对象array = ["粉条", "粉丝", "粉带"]# 如果不指定索引, 默认原创 2019-02-27 10:12:21 · 441 阅读 · 0 评论 -
爬虫框架scrapy
有助于理解的scrapy框架流程工程创建scrapy startproject mySpidercd mySpidertree├── mySpider│ ├── init.py│ ├── items.py # 提取的数据信息│ ├── middlewares.py # 中间键│ ├── pipelines.py ...原创 2019-02-20 17:43:40 · 1546 阅读 · 17 评论 -
爬虫之requests模块
1. requests爬取页面内容import requestsfrom urllib.error import HTTPErrordef get_content(url): try: # 1. 直接获取 # response = requests.get(url) # 2. 模拟浏览器获取 user_agents = ...原创 2019-02-20 16:01:53 · 130 阅读 · 0 评论 -
cookie相关
cookie信息是什么?cookie某些网站为了辨别用户身份, 只有登陆某个页面才可以访问;登陆信息保存方式: 进行一个会话跟踪(session),将用户的相关信息保存到本地的浏览器中;1. 获取cookie信息保存到变量# CookieJar ------> FileCookieJar ---> MozilaCookie# 1. 声明一个类, 将cookie信息保存...原创 2019-02-20 14:58:19 · 106 阅读 · 0 评论 -
反爬虫
1. 反爬虫模拟浏览器什么是爬虫?就是在互联网上一直爬行的蜘蛛, 如果遇到需要的资源, 那么它就会抓取下来(html内容);模拟浏览器快速访问页面的内容.浏览网页的过程中发生了什么?浏览器输入http://www.baidu.com/bbs/;1). 根据配置的DNS获取www.baidu.com对应的主机IP;2). 根据端口号知道跟服务器的那个软件进行交互。3). 百度的...原创 2019-02-20 14:36:24 · 210 阅读 · 0 评论 -
百度开源绘图工具echart
安装pip install pyecharts1. 条形图 Barfrom pyecharts import BarmovieName = ["战狼2","速度","功夫瑜伽","西游伏妖篇","变形金刚5",&原创 2019-02-25 17:30:11 · 3568 阅读 · 0 评论 -
词云分析
使用模块:jieba(结巴):切割中文的模块;wordcloud:pillow: python3中专门用来处理图像的模块;numpy:matplotlib:1. 处理英文实现处理英文的词云比较简单# 1. 切割和处理英文字符,data = []with open('/tmp/passwd') as f: for line in f: result1 = ...原创 2019-02-20 10:57:15 · 2987 阅读 · 0 评论 -
Matplotlib
matplotlib是什么?python底层的绘图工具matplotlib的基本要点如何设置图片的大小;如何保存到本地;x轴和y轴的描述信息;中文显示乱码问题;调整x轴和y轴的刻度;x轴的刻度信息过长, 如何调整?标记最高点;matplotlib的折线图, 柱状图, 直方图, 散点图;上面的点都会在下面的案例中解决案例1. 折线图先写一个最简单的from m...原创 2019-02-23 22:16:10 · 117 阅读 · 0 评论 -
numpy
list 相当于 特殊的数组数组和列表的区别:- 数组: 存储的时同一种数据类型;- list:容器, 可以存储任意数据类型;numpy什么numpy?快速, 方便的科学计算基础库(主要是数值的计算, 多维数组的运算);轴的理解(axis): 0轴, 1轴, 2轴一维数组: [1,2,3,45] ----0轴二维数组: [[1,2,3,45], [1,2,3,45...原创 2019-02-23 17:32:48 · 339 阅读 · 0 评论 -
tesseract的简单使用
处理验证码流程1.安装tesseract是一个谷歌开源的orc项目安装之后会生成Tesseract-OCR,需把它的路径加到环境变量PATH中在pycharm中:pip install pyteaaeract2. 简单的小例子import pytesseractfrom PIL import Imageimg=Image.open('yzm1.jpg')code=py...原创 2018-11-17 22:49:42 · 274 阅读 · 0 评论 -
爬虫之登录云打码的案例
核心步骤:取到验证码图片的url获得验证码登录代码from random import choiceimport requestsfrom day06.yundama import get_code#获得验证码def get_yzm_code(): img_url = 'http://www.yundama.com/index/captcha?' re...原创 2018-11-22 20:54:09 · 511 阅读 · 0 评论 -
云打码的使用
到官网下载示例代码(下图的10)在云打码平台用开发者用户登录,添加一个新的软件修改示例代码软件ID和软件秘钥为第二步添加的新软件生成的软件代码和通讯密钥软件ID和软件秘钥为第二步添加的新软件生成的软件代码和通讯密钥filename修改为你要识别的验证码图片filename = ‘yzm3.jpg’修改username和password为普通用户的用户名和密码(是普通用...原创 2018-11-20 23:09:53 · 1772 阅读 · 0 评论 -
爬虫之多线程
1.引入之前写的爬虫都是单个线程的,一旦某个地方卡住不动了,那就要演员等待下去了,所以我们可以使用多线程或多进程来处理但是我个人不建议用,不过 还是简单的介绍下2.使用爬虫使用多线程来处理网络请求,使用线程来处理URL队列中的url,然后将url返回的结果保存在另一个队列中,其它线程在读取这个队列中的数据,然后写到文件中去3. 主要组成部分3.1 URL队列和结果队列将要...原创 2018-11-08 11:40:29 · 398 阅读 · 0 评论 -
数据提取-
1.Python中的json模块json.loads()把json格式的字符串解码转换为Python对象json.dumps()把Python对象编码转换为json字符串json.dump()把Python内置类型转换为json对象后写入文件json.load()读取文件中的json形式的字符串元素转换为Python类型import json# ...原创 2018-11-06 16:47:30 · 766 阅读 · 0 评论 -
数据提取-pyquery
1.pyquery1.1 介绍官网:https://pythonhosted.org/pyquery/1.2 安装pip install pyquery1.3 使用1.3.1 初始化字符串from pyquery import PyQuery as pqdoc=pq(str)print(doc(tagname))urlfrom pyquery impo...原创 2018-11-01 23:07:14 · 176 阅读 · 0 评论 -
数据提取-Xpath
1. 介绍之前BeautifulSoup的用法,这已经是很强大的库了,不过还有一些比较流行的解析库,例如lxml,使用的是Xpath语法,同样是效率比较高的解析方法,如果对BeautifulSoup使用不太习惯,可以尝试下Xpath官网:http://lxml.de/index.htmlw3c:http://www.w3school.com.cn/xpath/index.asp2. 安...原创 2018-11-01 08:49:54 · 472 阅读 · 0 评论 -
Beautiful Soup的使用
1. 安装pip bs4或pip beautifulsoup42. 使用创建Beautiful Soup 对象from bs4 import BeautifulSoupsoup=BeautifulSoup(str,‘lxml’)//str在下面的测试代码中四大对象种类Beautiful Soup 将复杂HTML 文档转换成一个复杂的树形结构,每个节点都是Python对象,所...原创 2018-10-25 21:09:46 · 172 阅读 · 0 评论 -
pandas之DataFrame
常见的数据类型:一维: Series二维: DataFrame三维: Panel …四维: Panel4D …N维: PanelND …1. 创建DataFrame数据类型DataFRame对象里面包含两个索引, 行索引(0轴, axis=0), 列索引(1轴, axis=1)方法1: 通过列表创建import pandas as pdimport numpy as ...原创 2019-02-27 12:27:36 · 1050 阅读 · 0 评论