![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据采集python
数据采集
「已注销」
这个作者很懒,什么都没留下…
展开
-
[数据采集笔记05]——数据的存储——Python Excel 读写追加写入
1.Python Excel 读写追加写入(xlrd, xlwt, openpyxl, xlsxwriter)首先几个第三方库进行比较:xlrdxlwtopenpyxlXlsxWriter介绍用来读取xls文件,是python-excel的三大模块用来写xls文件,是python-excal的三大模块可以读写XLSX、XLSM文件可以创建XLSX文件读√×√×写×√√√.xls√√××.xlsx××√√大文件原创 2020-06-05 14:01:01 · 318 阅读 · 0 评论 -
【转载】pycharm请求头一键转换为字典
https://www.jianshu.com/u/680e0e38ddc9原创 2020-05-27 12:07:54 · 643 阅读 · 0 评论 -
使用python登录CSDN[应用篇]
今天看到了一篇博客写了使用python登录csdn, 所以自己也试了一下。查找网页接口首先你要用python登录csdn,就要有网页登录的接口。我们用浏览器登录界面是这个:对应的url:https://passport.csdn.net/login?code=public当我们在输入密码和账户后, 按<F12>打开NetWork,然后点击登录。这时,我们会发现多了如下几个请求响应。其中doLogin, 就是对应着登录请求, 请求的url为https://passport.csdn.原创 2020-05-18 01:31:06 · 546 阅读 · 0 评论 -
数据可视化——pyecharts——02——配置项-全局配置项——01初始化配置项
正如前面所说pyecharts一切皆Options1.全局配置项初识全局配置组件Note: 配置项章节应该配合图表类型章节中的 example 阅读。全局配置项可通过 set_global_options 方法设置[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JxH3nCQK-1589378425383)(D:\笔记图片集\57307650-8a4d0280-7117-11e9-921f-69b8e9c5e4aa.png)][外链图片转存失败,源站可能有防盗链原创 2020-05-13 22:02:55 · 1515 阅读 · 0 评论 -
数据可视化——pyecharts——01——pyecharts快如入门[入门]
1.pyecharts快速入门Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。1.1.第一个程序显示每天的气温示例:# -*- coding:utf-8 -*-"""一个显示每天气温的示例"""from pyecharts.charts import Bar #导入柱状图#测试数据date = ['9月1日原创 2020-05-13 21:18:43 · 238 阅读 · 0 评论 -
[Scrapy学习01]——Scrapy简单介绍
1. Scrapy简介Scrapy这个爬虫框架主要由以下组件来组成:引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务。(是框架核心)调度器(Scheduler): 用来接受引擎发过来的请求, 将请求放入队列中, 并在引擎再次请求的时候返回.它来决定下一个要抓取的网址是什么, 同时担负着“网址去重”这一重要工作。下载器(Downloader): 用于下载网页内容, 并将网页内容返回给爬虫(Spider)。下载器是建立在twisted这个高效的异步模型上的, 他是一个Pyth原创 2020-06-02 17:00:50 · 167 阅读 · 0 评论 -
[数据采集笔记06]——04selenium+pymongo爬取简书首页的文章信息(该页面采用Ajax技术)[实战篇]
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom pymongo import MongoClientimport timedef scroll(drive原创 2020-05-24 15:27:09 · 168 阅读 · 0 评论 -
[数据采集笔记06]——02selenium库的学习——selenium使用的简单介绍
selenium使用的简单介绍1.基本步骤seleninum的使用一般分为以下几个步骤(个人总结):①创建一个浏览器对象②加载某个页面③获取元素[可以通过id、name、xpath、连接的文本、标签的名、class、css选择器等方式获取元素]④关闭浏览器我们以爬取贝壳网新房第一页的楼盘名为例子:from selenium import webdriver#这个需要改成自己的自己的驱动位置driverpath = 'D:\Taosoftware\chromedrive原创 2020-06-05 12:56:43 · 179 阅读 · 0 评论 -
[数据采集笔记06]——01动态内容的抓取与Ajax
1. JavaScript与动态内容对于同一个url,有时用户抓取的内容与在浏览器中看到的内容不同, 这是因为用户通过程序获取的响应内容都是原始的html数据, 而浏览器中所看到的数据是在html的基础上经过JavaScript进一步处理加工后生成的效果。比如,简书主页(如下图片)。当你点击阅读更多时, 页面会加载出新的文章信息。 可是我们查看网页源码中并没有包含这些信息。(篇幅原因, 读者请自行在页面中点击右键查看网页源代码)。这是因为这些页面中用到AJAX技术(Asunchronous Jav原创 2020-05-22 23:04:28 · 253 阅读 · 0 评论 -
[pymongo学习01]——pymongo入门教程翻译与MongoDB简单的介绍
1.pymongo入门教程本文大体对pymongo3.9.0(当然也符合3.10.1)入门教程的翻译。并简要介绍mongodb。1.1.MongoDBMongoDB 是目前最流行的 NoSQL 数据库之一,使用的数据类型 BSON(类似 JSON)1.1.1概念解析不管我们学习什么数据库都应该学习其中的基础概念,在mongodb中基本的概念是文档、集合、数据库。 下面看一下与关系数据库的对比。SQL术语/概念MongoDB术语/概念解释/说明databasedatabas原创 2020-05-23 22:52:10 · 308 阅读 · 0 评论 -
[数据采集笔记04]——网页解析——lxml、bs4、正则
2.网页解析2.1.网页解析概述除了学会向服务器发出请求、下载HTML源码,要获取结构化的数据还面临一个最常见的任务,就是从HTML源码中提取数据。三种方法:正则表达式lxml库BeautifulSoup针对文本的解析, 用正则表达式针对html/xml的解析, 有Xpath、 BeautifulSoup、 正则表达式针对JSON的解析, 有JSONPath几种解析网页技术的区别正则表达式基于文本的特征来匹配或查找指定的数据,可以处理任何格式的字符串文档,类似于模糊匹配的原创 2020-05-11 00:06:22 · 1467 阅读 · 0 评论 -
1.python标准库urllib的使用[入门]
1.urlib——处理URLurllib 是一个收集了多个用到 URL 的模块的包, 是python标准库的一员urllib.request 打开和读取 URLurllib.error 包含 urllib.request 抛出的异常urllib.parse 用于解析 URLurllib.robotparser 用于解析 robots.txt 文件1.1. urllib.reque...原创 2020-05-02 18:32:52 · 287 阅读 · 0 评论 -
[数据采集笔记01]——网络爬虫的分类
网络爬虫的分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 [1] 。通用网络爬虫通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 W转载 2020-05-16 19:20:07 · 755 阅读 · 0 评论 -
[数据采集笔记00]——网络爬虫的概述——00概述
1.概述1.1. 爬虫的简介1.1.1. 浏览器访问网站工作原理浏览器访问网页的大致工作原理可以分为以下几步:我在浏览器的地址栏中输入要访问网页的url浏览器就会向服务器发送HTTP请求。服务器接收到浏览器发送的HTTP请求后,产生并返回HTTP响应。然后浏览器获取响应(主要是html、js等), 并解析成用户所能看到的页面。1.1.2. 什么是爬虫爬虫就是一个自动抓取互联网信息的程序, 可以从一个URL出发访问它所关联的URL, 提取我们想要的数据。即爬虫就是自动访问互联网并提取数原创 2020-05-16 21:31:18 · 248 阅读 · 0 评论