自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 数据分析常用名词解释

数据分析常用的术语解释。 按照以下三类进行汇总。 1、互联网常用名词解释 2、统计学名词解释 3、数据分析名词解释 一、互联网常用名词解释 1、PV(Page View)页面浏览量 指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数...

2020-01-09 09:13:32

阅读数 31

评论数 0

转载 数据预处理

预处理数预处理数据的方法总结(使用sklearn-preprocessing) 当我们拿到一批原始的数据 首先要明确有多少特征,哪些是连续的,哪些是类别的。 检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。 对连续的数值型特征进行标准化,使得均值为0,方差为1。 对类别型的...

2020-01-06 15:30:50

阅读数 14

评论数 0

原创 SQL各关键字执行顺序(MySQL)

SQL各个关键字的执行顺序: (8)SELECT(9)DISTINCT <select_list> (1)FROM <left_table> (3)<join_type> JOIN <right_table> (2)ON <join_co...

2019-12-19 15:52:00

阅读数 12

评论数 0

转载 python pandas解决数据中含有空格转换数据类型的问题to_numeric

在人工采集数据时,经常有可能把空值和空格混在一起,一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦,因为空值和空格都是代表的无数据,而pandas中Series的方法notnull()会把有空格的数据也纳入进来,这样就不能完整地得到我们想要的数据了,这里给出一个简单的方...

2019-12-13 10:59:33

阅读数 24

评论数 0

转载 Fidder

Fiddler 教程 ...

2019-11-08 11:46:26

阅读数 22

评论数 0

原创 flask框架上传文件

后台代码 from flask import Flask, render_template, jsonify, request from werkzeug.utils import secure_filename import os import hex_to_bin as h2b app = ...

2019-11-07 13:56:04

阅读数 38

评论数 0

转载 数据结构

数据结构 一些概念 数据结构就是研究数据的逻辑结构和物理结构以及它们之间相互关系,并对这种结构定义相应的运算,而且确保经过这些运算后所得到的新结构仍然是原来的结构类型。 数据:所有能被输入到计算机中,且能被计算机处理的符号的集合。是计算机操作的对象的总称。 数据元素:数据(集合)中的一个...

2019-10-28 17:43:13

阅读数 18

评论数 0

原创 flask框架写接口

#encoding: utf-8 import struct from flask import Flask, request import zlib from flask_restful import Api, Resource, reqparse import os import json i...

2019-10-24 13:12:02

阅读数 81

评论数 0

转载 数据分析:附录B 更多关于IPython的内容

第2章中,我们学习了IPython shell和Jupyter notebook的基础。本章中,我们会探索IPython更深层次的功能,可以从控制台或在jupyter使用。 B.1 使用命令历史 Ipython维护了一个位于磁盘的小型数据库,用于保存执行的每条指令。它的用途有: 只用最少的输入,...

2019-10-14 17:50:18

阅读数 6

评论数 0

转载 数据分析:附录A NumPy高级运用

在这篇附录中,我会深入NumPy库的数组计算。这会包括ndarray更内部的细节,和更高级的数组操作和算法。 本章包括了一些杂乱的章节,不需要仔细研究。 A.1 ndarray对象的内部机理 NumPy的ndarray提供了一种将同质数据块(可以是连续或跨越)解释为多维数组对象的方式。正如你之前所...

2019-10-14 17:49:19

阅读数 10

评论数 0

转载 利用python进行数据分析(第二版)_第十四章

本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。 案例数据集可以在Github仓库找到,见第一章。 #14.1 来自Bitly的USA....

2019-10-12 09:17:12

阅读数 40

评论数 0

转载 利用python进行数据分析(第二版)_第十三章

本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。 开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决,比如普通的最小二乘回归,其它问题可能需要复杂的机器学习方法。幸运的是,Python已经成为...

2019-10-12 09:16:14

阅读数 18

评论数 0

转载 利用python进行数据分析(第二版)_第十二章

前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。 12.1 分类数据 这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍...

2019-10-12 09:15:24

阅读数 12

评论数 0

转载 利用python进行数据分析(第二版)_第十一章

时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时...

2019-10-12 09:13:47

阅读数 9

评论数 0

转载 利用python进行数据分析(第二版)_第十章

对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。 关系型数据库和SQL(S...

2019-10-12 09:12:22

阅读数 12

评论数 0

转载 利用python进行数据分析(第二版)_第九章

信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http:/...

2019-10-12 09:10:52

阅读数 26

评论数 0

转载 利用python进行数据分析(第二版)_第八章

在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。 首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。 8.1 层次化索引 层次化索引(hiera...

2019-10-12 09:07:20

阅读数 12

评论数 0

转载 利用python进行数据分析(第二版)_第七章

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)...

2019-10-12 09:07:05

阅读数 35

评论数 0

转载 利用python进行数据分析(第二版)_第六章

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。 6.1 读写文本格式的数据 pandas提供了...

2019-10-12 09:06:50

阅读数 13

评论数 0

转载 利用python进行数据分析(第二版)_第五章

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构...

2019-10-12 09:06:35

阅读数 18

评论数 0

转载 利用python进行数据分析(第二版)_第四章

NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函...

2019-10-12 09:06:18

阅读数 16

评论数 0

转载 利用python进行数据分析(第二版)_第三章

本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。 我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后...

2019-10-12 09:05:59

阅读数 41

评论数 0

转载 利用python进行数据分析(第二版)_第二章

第2章 Python语法基础,IPython和Jupyter Notebooks 当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说...

2019-10-12 09:05:38

阅读数 35

评论数 0

转载 利用python进行数据分析(第二版)_第一章

第1章 准备工作 1.1 本书的内容 本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析...

2019-10-12 09:05:10

阅读数 27

评论数 0

原创 sql练习题-2

###第一个学生表,五个字段分别为学号,姓名,性别,生日,班级 CREATE TABLE STUDENT (SNO VARCHAR(3) NOT NULL, SNAME VARCHAR(4) NOT NULL, SSEX VARCHAR(2) NOT NULL, SBIRTHDAY DATE, S...

2019-09-27 17:25:16

阅读数 15

评论数 0

原创 sql练习题

数据表介绍 –1.学生表 Student(SId,Sname,Sage,Ssex) –SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别 –2.课程表 Course(CId,Cname,TId) –CId 课程编号,Cname 课程名称,TId 教师编号 –3.教师表 ...

2019-09-23 21:15:09

阅读数 26

评论数 0

原创 爬虫实战29:爬取哔哩哔哩网站视频信息

# coding:utf-8 import requests import json import time import pymysql import bs4 headers = { 'User-Agent': 'Mozilla/5.0 (Windows N...

2019-09-11 15:49:02

阅读数 155

评论数 0

原创 爬虫实战30:多线程爬取bilibili网站视频数据

# coding:utf-8 # 使用了线程库 import threading # 队列 from queue import Queue # 解析库 from lxml import etree # 请求处理 import requests # json处理 import requests i...

2019-09-10 22:57:47

阅读数 205

评论数 0

转载 Fiddler 教程

源文地址:http://www.cnblogs.com/TankXiao/archive/2012/02/06/2337728.html Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和...

2019-09-04 09:17:19

阅读数 77

评论数 0

原创 爬虫实战28:多线程爬取知乎关注人信息,并保存到mysql和MongoDB中

上篇文章讲的是如何爬取知乎关注者信息,这篇是上篇的多线程版本 from threading import Thread from queue import Queue import requests import json # 引入mysql数据库 import pymysql db = pym...

2019-09-03 16:48:18

阅读数 67

评论数 0

原创 爬虫实战27:爬取关注人所关注者的信息

# encoding:utf-8 import requests import json # 引入mysql数据库 import pymysql db = pymysql.connect(host='localhost', user='root', pa...

2019-09-03 15:32:42

阅读数 51

评论数 0

转载 CSDN如何一键转载别人的文章

前言   对于喜欢逛CSDN的人来说,看别人的博客确实能够对自己有不小的提高,有时候看到特别好的博客想转载下载,但是不能一个字一个字的敲了,这时候我们就想快速转载别人的博客,把别人的博客移到自己的空间里面,当然有人会说我们可以收藏博客啊,就不需要转载,(⊙o⊙)… 也对。。 实现   因为我自己当...

2019-09-03 14:03:12

阅读数 18

评论数 0

转载 Redis数据库增删改查操作用法

redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。 Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。 Redis不仅仅支持简单的key-value类...

2019-09-03 12:16:18

阅读数 325

评论数 0

原创 爬虫实战26:爬取知乎关注人信息并保存到mysql和MongoDB中

# encoding:utf-8 import requests import json # 引入mysql数据库 import pymysql db = pymysql.connect(host='localhost', user='root', pa...

2019-09-03 10:57:43

阅读数 34

评论数 0

原创 爬虫实战25:scrapy框架爬取CSDN讲师信息

items相关代码: name = scrapy.Field() href = scrapy.Field() students = scrapy.Field() contents = scrapy.Field() csdn相关代码 import scrapy from s...

2019-08-23 14:20:12

阅读数 473

评论数 0

原创 爬虫实战24:爬取阳光问政信息

import requests import time import bs4 from lxml import etree import gevent import gevent.monkey import threading headers = { 'Accept':...

2019-08-22 17:03:44

阅读数 457

评论数 0

原创 爬虫实战23:多线程爬取2345电影排行榜

import requests import bs4 import time from threading import Thread from queue import Queue global my_queue my_queue = Queue() start_time = time.tim...

2019-08-22 16:33:40

阅读数 441

评论数 0

原创 爬虫实战22:多线程爬取豆瓣妹子图

from threading import Thread import urllib.request import bs4 import urllib.error from queue import Queue headers = {"User-Agent": "Mo...

2019-08-20 10:09:53

阅读数 452

评论数 0

原创 爬虫实战21:爬取全国空气质量情况

import requests import bs4 import time from lxml import etree import os def get_cities_url(): headers = { 'Accept': 'tex...

2019-08-15 16:24:43

阅读数 626

评论数 0

原创 爬虫实战20:爬取安居客租房信息

import requests import bs4 import json import time import os from lxml import etree class spider(object): def __init__(self): self.url ...

2019-07-16 11:49:00

阅读数 654

评论数 0

提示
确定要删除当前文章?
取消 删除