- 博客(10)
- 收藏
- 关注
原创 数据分析(二)----- 描述性统计分析
一、直方图 直方图可以直观的看到数据的大致情况;一般有频数分布直方图和频率分布直方图两种。二、数据的计量尺度 数据的计量尺度是指对计量对象量化时采用的具体标准,它分为以下四类:定类尺度:表现为“ 类别 ” ,各类之间无等级大小差别; 定序尺度:描述对象的类别,但具有固有的大小和高低顺序; 定距尺度:数据间有固定的距离; 定比尺度:它还可以作为比较的共同起...
2019-01-23 15:57:35 9068
原创 数据分析(一)----- 基本概念及分析软件安装
一、什么是数据分析 专业的解释:有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。 从行业的角度:数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。 数据分析立足于三点:一是目的,要有针对性;二是方法,统计基础和数据挖掘;三是结果,要达到最初的目的并有较好的应用。二、...
2019-01-22 16:05:14 1999
原创 爬虫(requests)爬取数据爬到一半时乱码了的解决办法
今天写了一个爬虫采集一些数据,刚开始一切都很好,后来采集到3万条左右的时候出现了乱码,不仅是保存到CSV文件中是乱码,就连打印到控制台窗口也是乱码,这时怎么一回事? 初步将问题定在网页编码可能发生了改动,一开始我请求数据是这样写的:html = requests.get(detailUrl, headers=headers, timeout = 5).text...
2019-01-19 16:24:33 1099
原创 爬虫采集到的数据保存到CSV文件中乱码问题的解决办法
以下的几种错误就是我在解决CSV文件中乱码问题时遇到的: TypeError: write() argument must be str, not bytes; TypeError: a bytes-like object is required, not 'str'; 还有一些是调试的时候出的错误,但是有点忘了,大意就是在用某种方法解决一个...
2019-01-19 15:59:38 7803 3
原创 数据清洗(三)----- 清洗PDF文件中的数据
可移植文档格式(PDF)存储的文件相对较复杂,因为它是以二进制的形式存储的,格式固定,不可修改。使用起来很方便,但是里面的信息相对较难提取,下面将介绍一些方式提取FDF中的信息。1. 最简单的方式----复制 有pdf文件里面的内容可以复制出来再整理,这对于需要从PDF中拿少量信息来说十分便利;但是数据比较多时这样做的效率低下,而且有的PDF根本无法复制,因此这种方...
2019-01-17 17:47:43 4393 4
原创 数据清洗(二)----- 数据转换
一、将电子表格转换为CSV类型 这个比较简单,基本上用软件打开电子表格后选择另存为就可以定义另存文件的格式和编码了,这是比较简单快捷的。不过也有一些地方需要注意:在另存为CSV文件时,只有当前工作表中的内容会被保存,这是因为CSV文件只能描述一组数据集。如果你的电子表格里有多个工作表的话,需要分别单独存为CSV文件。二、将电子表格转换为JSON 电子表格转...
2019-01-17 12:14:45 2487
原创 数据清洗(一)----- 清洗数据的目的及基本格式、类型与编码
一、数据清洗的目的 简单的来说不干净的数据会导致分析过程中的错误以及结果的错误。举个简单的例子,以前我们上学时做柱形图这种类型的图时,如果大部分数据集中在某个区间而一两个数据离得很远,如果不去除这一两个有问题的数据,那整体的图画出来就会有问题,不能反映数据的情况。二、数据科学的过程1. 问题陈述 清楚的了解你要解决的问题是什么。2. 数据的收集与存储...
2019-01-16 16:24:16 14401
原创 MySQL(十七)----- 锁相关问题
锁是计算机协调多个进程、线程并发访问某一资源的机制。传统的计算机在CPU、RAM、I/O等上采用锁来防止相互争夺的情况,同样,数据库中的数据也是一种共享的资源,如何保证数据并发访问的一致性、有效性是是数据库必须要解决的问题,因此锁的概念就提到数据库上来了。一、MySQL锁概述 相对于其它的数据库而言,MySQL中的锁相对较简单,其显著的特点是不同的存储引擎支持...
2019-01-07 18:24:18 890
原创 MySQL(十六)------ 优化数据库对象
在数据库设计时,通常会有很多问题需要思考,比如是否需要把所有的表按第三范式来设计?表中各字段设计为多大的长度合适?等等这些问题都是需要考虑的;下面介绍的就是通过一些方法来分析,而后进行指导数据库的优化。一、优化表的数据类型及长度 表字段的类型需要根据应用来判断,字段的长度要留有一定的冗余,但不能有大量冗余,具体怎么定可以通过MySQL的函数 procrdure ...
2019-01-07 10:18:43 699 5
原创 MySQL(十五)----- SQL语句优化之索引问题
索引是数据库优化中最常用也是最重要的手段之一,通过索引通常可以解决大多数的SQL性能问题。一、索引的存储分类 索引是在MySQL的存储引擎层中实现的,因此,每种存储引擎的索引都不一定完全相同,也不是所有的存储引擎都支持所有的索引类型。目前MySQL提供了以下4种索引:B-Tree索引:最常见的索引类型,大部分存储引擎都支持B树索引; HASH索引:只有Mem...
2019-01-04 16:06:28 296
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人