小柴~-CSDN博客

原创纽约出租车旅途时间建模分析

根据纽约出租车的运营数据，针对客户旅途时间展开分析与建模。import osimport pandas as pdimport numpy as npfrom matplotlib.pyplot import *import matplotlib.pyplot as pltfrom matplotlib import animationfrom matplotlib import cmfrom sklearn.cluster import KMeansfrom sklearn.neighb

2021-10-06 11:04:28 1881 3

原创 Python爬虫学习（一）

1.使用urllib库urllib库是python内置的HTTP请求库，包含4个模块：1.request：是最基本的http请求模块，可以用来模拟发送请求，就像在浏览器里输入网址按回车一样，只需要给库方法传入URL和其他参数，就可以实现这个过程了。2.error：异常处理模块。3.parse：一个工具模块，提供许多URL处理方法，比如拆分，解析，合并等。4.robotparser：主要用来识别网站的robot.txt文件，然后判断哪些网站可以爬，它用的比较少。1.1发送请求1.urlopen(

2021-10-05 09:51:24 303

原创 Python异常值检测——黄牛刷单行为特征分析

将账号的订单数和ip地主数量两个变量进行异常值检测，分析出黄牛恶意下单的行为特征import pandas as pdcatering_sale = 'C:\python\异常检测.csv' #数据data = pd.read_csv(catering_sale, index_col = 'ip_cnt') #读取数据，指定“日期”列为索引列dataimport matplotlib....

2019-12-04 16:13:18 2293

原创 SQL over(partition by order by)函数题目汇总

一、SQL.（1）有一张user_score表，包含每个人的三科成绩，数据样例如下：Name subject score张三语文 82张三数学 90张三外语 75李四语文...

2019-10-17 12:43:23 819

原创《SQL经典实例》六——字符串处理

6.1 遍历字符串问题你想遍历一个字符串，并以一个字符一行的形式把它们显示出来，但 SQL 没有 Loop 循环功能。例如，你想把 EMP 表的 ENAME 等于 KING 的字符串拆开来显示为 4 行，每行一个字符。substr函数 (俗称：字符截取函数)substr(string string, int a, int b);1、string 需要截取的字符串2、a 截取字符串的...

2019-07-19 14:12:08 517

原创《SQL经典实例》五——元数据查询

第五章：元数据查询5.1、列举模式中的表1.问题列出在某个模式里创建的所有表。select table_namefrom information_schema.TABLES结果：5.2　列举字段问题你想列举一个表的列（即字段），以及它们的数据类型和在表中的位置。select column_name,data_type,ordinal_positionfrom info...

2019-06-13 16:58:14 685

原创《SQL经典实例》四——插入、更新和删除

第四章：插入、更新和删除4.1插入新纪录你希望向某个表中插入一条新记录。例如，你想插入一条新记录到 DEPT 表里。DEPTNO 值应该为 50，DNAME 设为 PROGRAMMING，而 LOC 则是 BALTIMORE。insert into dept(deptno,dname,loc)values(50,'programming','batltomore')4.2 插入默认值...

2019-05-07 22:31:18 913

原创 Python项目实战——纽约出租车运行情况分析建模

根据出租车的运营数据，针对客户旅途时间展开分析与建模，通过分析，对客户可能有影响的几个因素进行分析，比如车堵不堵，路线规划是否合理等,以改善运营情况。对出租车历史数据进行分析，为客户预测预计到达时间1.导入需要的包。2.查看数据。3.重要字段说明：id、上车时间： pickup_datetime、下车时间： dropoff_datetime、乘客数量： passenger_count 、...

2019-03-18 14:54:43 10485 20

原创关于My SQL中EXISTS在相关子查询的应用

1.子查询子查询就是嵌套在查询语句内的查询，后续查询可以使用先前查询的结果，用以代替暂存表或变量存储先前查询结果。子查询的外层为较高的层级，以下称之为“主查询”。派生表是子查询的一个特殊情况，他是应用于FROM子句中的 SELECT完整命令，以数据表别名引用子查询就是嵌套在查询语句内的查询，后续查询可以使用先前查询的结果，用以代替暂存表或变量存储先前查询结果。子查询的外层为较高的层级，以下...

2019-03-13 22:38:48 5890

原创《SQL经典实例》——读书笔记三

第三章：多表查询3.1 叠加两个行集你想返回保存在多个表中的数据，理论上需要将一个结果集叠加在另一个之上。这些表可以没有相同的键，但它们的列的数据类型必须相同。例如，你想显示 EMP 表里部门编号为10 的员工的名字和部门编号，以及 DEPT 表中各个部门的名称和编号。SELECT ename as ENAME_AND_DNAME,deptnoFROM empWHERE deptno=...

2019-03-11 23:24:43 616

原创《SQL经典实例》读书笔记二

第二章：查询结果排序2.1以指定顺序返回查询结果你想显示部门编号为 10 的员工的名字、职位和工资，并根据工资从低到高排序。SELECT ename,job,salFROM empWHERE deptno=10ORDER BY sal ASCORDER BY 子句可以对结果集排序。本实例针对 SAL 按照升序排列。默认情况下，ORDER BY会做升序排列，因此 ASC 子句是可选项...

2019-03-08 17:21:05 409

原创《SQL经典实例》读书笔记一

《SQL经典实例》介绍了数据库的SQL查询技术和一些基础的查询语句，并且通过实力操作讲解了如何插入，更新，删除数据等相关知识。另外，本书还介绍了如何使用SQL进行日期处理，以及一些其他的SQL语句查询操作。下面是一些前期准备：CREATE DATABASE IF NOT EXISTS sql_test;USE sql_test;CREATE TABLE IF NOT EXISTS ...

2019-03-07 22:05:37 865 2

原创 SQL实操题目记录（1）

原始数据表名：FILL_TIME充值时间ACCOUNT_ID账号IDCARD_TYPE充值卡面值类型FILL_TYPE充值类型CARD_AMOUNT充值卡个数【SQL题目】请按照以下要求写出SQL代码 1、获得每日充值的账号数，及充值金额，要求对账号排重。代码：SELECT DATE(FILL_TIME),COUNT(DISTINCT A...

2019-01-21 20:29:35 1460 1

原创 python数据挖掘笔记——回归（3）：一元非线性回归

概念：一元非线性回归分析（Univariate Nonlinar Regression）:在回归分析中，只包含一个自变量和一个因变量，且二者的关系可以用一条曲线表示，则成为一元非线性分析。案例：游戏等级和木材消耗的关系。木材消耗和游戏等级呈一条曲线关系，探究木材消耗和游戏等级之间的非线性关系。求解：将一元非线性回归方程转为多元线性回归方程，例如：下面是代码演示：首先导入数据集，取出...

2018-12-23 22:28:53 7952 1

原创 python数据挖掘笔记——回归（2）：多重线性回归

多重线性回归（Multiple Linear Regression)：研究一个因变量与多个自变量之间的线性关系的方法。一元线性回归是特殊的多重线性回归，多重线性回归分析步骤和一元线性回归一样：回归分析的步骤：根据预测目标，确定自变量和因变量。绘制散点图，确定回归模型类型。估计模型参数，建立回归模型。对回归模型进行检验。回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指...

2018-12-09 14:27:38 2627

原创 python数据挖掘笔记——回归（1）：简单线性回归

概念：回归分析（Regression Analysis)：研究自变量与因变量之间关系形式的分析方法，它主要是通过建立因变量Y和自变量Xi(i=1,2,3…)之间的回归模型，来预测因变量Y的发展趋势。回归分析的分类：简单线性回归模型：Y=a+bx+e式中，Y:因变量x:自变量a:常数项，截距b:回归系数，斜率e:随机误差回归分析的步骤：根据预测目标，确定自变量和因变量。...

2018-12-08 22:48:03 700

原创 python数据挖掘笔记——相关分析

相关性分析：对两个或多个具备相关性的元素变量进行分析，从而衡量两个变量之间的密切相关程度，相关性的元素之间要存在一定的联系或概率才可以进行相关性分析。相关性分析的几个方法：图示初判(散点图，基本呈一条直线分布）Pearson相关系数（皮尔逊相关系数）Sperman秩相关系数（斯皮尔曼相关系数）相关系数：相关系数是变量间关联程度的最基本的测度之一。基本特征：方向：正相关，...

2018-12-07 21:12:25 764

原创 python数据挖掘实战笔记——文本挖掘（10）：自动摘要

概念：摘要：全面准确地反映某一文献中心内容的简单连贯的短文。自动摘要：利用计算机自动地从原始文件中提取摘要。算法原理：余弦相似定理算法步骤：获取需要摘要的文章对该文章进行词频统计对该文章进行分句，一般采用“,&quot;、&quot;.&quot;、?&quot;进行分句。计算分句与文章之间的余弦相似度。取相似度最高的分句，作为文章的摘要。下面是具体代码实现：首先导入包：

2018-12-05 23:58:43 2341 1

原创 Python实战项目——售电公司客户用电匹配方案

项目简介：有一家售电公司，服务于用户和电厂两个主体，用户向售电公司上报一年各个月份的用电需求量，各个电厂给出售电公司各个月份的电量供应量及报价，已知电量越大，价格越高。作为中间服务商，售电公司为了追求利润最大化，需要将用户的需求电量与电厂的供应电量进行匹配，要求用Python实现匹配出各个月满足用户需求的最低价的电量及对应的电厂。数据集:用户需求电量表: [月份、用户需求电量]电厂供电量表...

2018-11-28 15:52:38 1985 1

原创 Python统计分析（4）——几种重要的概率分布（4）：卡方分布

卡方分布通俗地说就是通过小数量的样本容量去估计总体容量的分布情况。卡方检验就是统计样本的实际观测值与理论推断值的偏离程度。卡方检验的基本思想就是根据样本数据推断总体的频次与期望频次是否有显著性差异。#卡方分布——画图#导入需要的包import numpy as npimport scipy.stats as statsimport matplotlib.pyplot as plt...

2018-11-27 15:41:28 8783 2

原创 Python统计分析(5)——几种重要的概率分布：均匀分布

均匀分布定义：对于掷骰子来说或，结果为1到6，得到任何一个结果的概率都一样，这就是均匀分布，均匀分布得到的n个结果的可能性都相同，如果随机变量X是均匀分布的，则密度函数可以表示为： f(x)=1/b-a (b<x<a) 均匀分布的曲线是一个矩形，均匀分布又称为矩形分布。#绘图——均匀分布import numpy as npimport scipy.stats as stats...

2018-11-13 22:06:21 9092

原创 Python统计分析(3)——几种重要的概率分布：二项式分布

二项式分布二项式分布就是只有两个可能结果的分布，比如成功或失败，抛一枚硬币的正反面，两个可能结果的概率可以相等，也可以是不相等的，总和为1，例如如果成功的概率为0.2，那么失败的概率就是P=1-0.2=0.8. 每一次尝试都是独立的，因为前一次投掷的结果不能影响当前投掷的结果，只有两种可能结果且重复n次的试验叫做二项式，二项式的参数是 n和P，n是试验的总次数，P是试验的概率。在上述说明的基...

2018-11-13 21:59:04 12961

原创 Python统计分析(2)——几种重要的概率分布：泊松分布

#泊松分布 (Poisson Distribution)通俗定义：假定一个事件，在一段时间内随即发生，且概率符合以下条件： 1.将该时间段分割成若干个小的时间段，在这个接近于0的小时间段里，该事件发生一次的概率与该小时间段的长度成正比。 2.在每个极小时间段内，该事件连续发生两次以上的概率恒等于0. 3.该事件在不同的小时间段里，发生与否相互独立。则该事件符合泊松分布。泊松分布使用了以下符号...

2018-11-13 21:42:34 21043 3

原创 Python统计分析(1)——几种重要的概率分布：正态分布

2018年10月12日正态分布在统计学发展历史中，正态分布有着非常重要的地位，因为它允许从数学上近似不确定性和变异性。虽然原始数据通常并不符合正态分布，但误差通常是符合正态分布的，对于大规模样本的均值和总数，也是一样的。要将数据转换为z分数，需要减去数据的均值，再除以标准偏差。这样，所生成的数据才可以与正态分布进行对比。标准化：标准化（也称为归一化），通过减去均值并除以标准偏差，将所有变...

2018-11-13 21:25:33 38288

原创 python数据挖掘实战笔记——文本挖掘（9）：相似文章推荐

概念：相似文本推荐：在用户阅读某篇文章的时候，为用户推荐更多与在读文章内容类似的文章。**推荐：**指介绍好的人或事物，希望被任用或接受。数据挖掘领域，推荐包括相似推荐及协同过滤推荐。**相似推荐：**指当用户表现出对某人或某物的兴趣时，为他推荐与之类似的人，或者物。核心定理：物以类聚，人以群分。**协同过滤推荐：**是指利用已有用户群过去的行为或意见，预测当前用户最有可能喜欢哪些东西或对...

2018-10-08 16:25:42 2085

原创 python数据挖掘实战笔记——文本挖掘（8）：用sklearn包进行关键字提取

概念：sklearn: 全名Scikit-Learn，是基于python的机器学习模块，网址：http://scikit-learn.org/stable/index.html ，里面对一些常用的机器学习方法进行了封装，在进行机器学习任务时，并不需要每个人都实现所有的算法，只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。机器学习任务通常包括分类（Classification...

2018-09-27 18:11:45 7374 5

原创 python数据挖掘实战笔记——文本挖掘（7）：TF-IDF原理

概念：词频（Term Frequency）：指的是某一指定的词在该文档中出现的次数。逆文档频率（Inverse DocumentFrequency）：IDF就是每个词的权重，它的大小与一个词的常见程度成反比。TF-IDF：衡量某个词是否关键词的指标，该值越大，是关键词的可能性就越大。计算公式：TF=该词在文档中出现的次数。IDF=log(文档总数/包含该词的文档数+1）TF-ID...

2018-09-26 20:54:50 2439 2

原创 python数据挖掘实战笔记——文本分析（6）：关键词提取

紧接上篇的文档，这节学习关键字的提取，关键词——keyword，是人们快速了解文档内容，把握主题的重要内容。#导入需要的模块import osimport codecsimport pandasimport jiebaimport jieba.analyse#搭建语料库for root, dirs, files in os.walk( r"C:\Users\www12\De...

2018-09-25 21:48:58 8444 3

原创 python数据挖掘实战笔记——文本挖掘（5）：词云美化之绘制《红楼梦》词云图

词云图的美化就是把词云图的背景和颜色进行美化，以《红楼梦》词云图为例，如下所示：首先绘制词云，跟之前的代码操作一样：import jiebaimport numpyimport codecsimport pandas#读取红楼梦文本file = codecs.open( r"C:\Users\www12\Desktop\data\2.5\红楼梦.txt", 'r', 'u...

2018-09-25 20:25:58 5018 4

原创 python数据挖掘实战笔记——文本挖掘（4）：词云绘制

概念：词云：词云是指对文本中词频较高的分词，给予视觉上的突出，形成“关键词渲染”，从而过滤掉大量的文本信息，使浏览者一眼扫过就可以领略文本的主旨。需要用到的包：wordcloud、matplotlibwordcloud包下载地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/#绘制词云from wordcloud import WordCloud...

2018-09-25 19:58:27 1507

原创 python数据挖掘实战笔记——文本挖掘（3):词频统计

概念：词频：指某个词在该文档中出现的次数。需要用到的模块：numpyimport numpy#进行词频统计 segStat = segmentDataFrame.groupby( by="segment" )["segment"].agg({ "计数":numpy.size }).reset_i...

2018-09-25 19:34:17 3160

原创 python数据挖掘实战笔记——文本挖掘（2）：中文分词

需要了解的几个概念：**中文分词：**将一个汉字序列切分成一个一个的词。**停用词：**数据处理时，需要过滤掉某些字或词，泛滥的词，比如web\网站等，语气助词、介词、副词、连接词等，如的、地、得。需要用到的模块：jiebajieba最主要的方法就是cut()方法，举个例子：import jiebafor w in jieba.cut("我爱Python"): print(w...

2018-09-25 17:14:39 2045

原创 python数据挖掘实战笔记——文本挖掘（1）：语料库构建

什么是文本挖掘？　　文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。一、搭建语料库语料库：要进行文本分析的所有文档的集合。需要用到的模块：os、os.path、codecs、pandas代码如下：import osimport os.pathfilePaths = []for root, dirs, files i...

2018-09-25 15:43:57 10047 10

原创 python数据分析（15）——pandas时间戳索引：Datetimeindex

1.时间序列 TimeSeries：以Datetimeindex为index的Series，就是时间序列。t1=pd.DatetimeIndex(['2017/8/1','2018/8/2','2018/8/3','2018/8/4/','2018/8/5'])print(t1,type(t1))DatetimeIndex(['2017-08-01', '2018-08-02', '2...

2018-09-12 19:47:19 21703

原创 python数据分析（15）——pandas时刻数据

pandas时刻数据：Timestamp 时刻数据表示时间点，是pandas的数据类型，是将值与时间点相关联的最直接的时间序列数据。 1.pandas.Timestamp():date1='20170101'date2=datetime.datetime(2017,10,1,15,0)t1=pd.Timestamp(date1)t2=pd.Timestamp(date2)print...

2018-09-03 14:19:31 518

原创 python数据分析（14）——pandas.datetime模块

datetime模块主要方法：datetime.date() / datetime.datetime() / datetime.timedelta() 1.datetime.date()方法：import datetimetoday=datetime.date.today()print(today)2018-09-03print(type(today))<class ...

2018-09-03 11:58:12 1523

原创 python数据分析（13）——pandas数据结构DataFrame基本技巧

数据查看、转置 / 添加、修改、删除值 / 对齐 / 排序数据查看与Series相同，df.head()、df.tail()：df=pd.DataFrame(np.random.rand(16).reshape(8,2)*100,columns=['a','b'])print(df.head())print(df.tail()) a b...

2018-09-02 16:46:58 425

原创 python数据分析（12）——pandas数据结构DataFrame：索引

DataFrame既有行索引，也有列索引，可以看作是series组成的字典。选择行 / 选择列 / 切片 / 布尔判断1.索引行/索引列df1=pd.DataFrame(np.random.rand(12).reshape(3,4),index=[1,2,3], columns=['a','b','c','d'])print(...

2018-08-31 14:53:01 904

原创 python数据分析（11）——pandas数据结构DataFrame

panads数据结构——DataFrame基本概念及创建：二维数组DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。 DataFrame既有行标签index,也有列标签columns,可以看作是由series组成的字典（共用同一个索引）。DataFrame的创建方法一：传入一个由等长列表或numpy数组组成的字典：data...

2018-08-30 16:09:58 542

原创 python数据分析（10）——数据结构Series基本技巧

数据结构Series基本技巧——数据查看/ 重新索引/ 对齐/ 增、删、改数据数据查看：s=pd.Series(np.random.rand(20))print(s.head(10))print(s.tail()).head()查看头部数据 .tail()查看末尾数据默认查看五行。重新索引 reindex:s=pd.Series(np.random.rand(5)...

2018-08-29 18:44:25 438

空空如也

空空如也