自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DREAM BIGGER

IT'S A WONDERFUL LIFE !

  • 博客(31)
  • 收藏
  • 关注

原创 校验身份证的行政区域代码(包含已撤销区域代码)2021年8月31日更新

1. 背景 根据身份证、统一社会信用代码的编码规则,身份证前6位和统一社会信用代码中的第3位到第8位均为行政区域6位编码。为了校验数据库中用户填写的编号是身份证号码,还是统一社会信用代码,需要一份行政区域代码的编码表。2. 行政区域代码数据整理2.1 数据搜集来源 搜索了民政部和统计局官方行政编码信息,没有按年汇总的完整信息,且没有覆盖已撤销行政区域的历史代码。- 中华人民共和国民政部-国家统计局>>统计用区划和城乡划分代码 ...

2021-09-15 17:45:06 3004 1

原创 kettle界面右上角connect消失 解决方法

今天,使用kettle设置数据库之后,发现右上角的connect功能消失了。原因:我在建立表的时候,在数据部的database里面,写了中文,导致repositories.xml出现乱码解决方法:1)找到.kettle目录,不知道目录路径的,可以搜索文件repositories.xml 2)删除该目录下的repositories.xm...

2019-09-24 15:19:26 7052 5

原创 Mysql 8.0 - 提示默认时期格式'0000-00-00 00:00:00'有误

存在actor表,包含如下列信息:CREATE TABLE IF NOT EXISTS actor (actor_id smallint(5) NOT NULL PRIMARY KEY,first_name varchar(45) NOT NULL,last_name varchar(45) NOT NULL,last_update timestamp NOT NULL DEFAULT ...

2019-06-06 22:32:54 6549

原创 Dijkstra算法的Python实现-最短路径问题

使用狄克斯特拉算法找出下图中从起点至终点耗时最短的路径,路径上的每个数字表示的都是时间,单位分钟。狄克斯特拉算法包含的4个步骤:(1)找出开销/消耗“最便宜”的节点,即在最短时间内到达的节点(2)对于该节点的邻居,检查是否有前往它们的更短路径,如果有,更新该节点的邻居的开销(3)重复上述过程,直到对图中的每个节点都这样做了(4)计算最终路径python代码实现:...

2019-05-30 11:39:08 4108

原创 【季节性预测法 - 时间序列分解法】利用excel进行复合型时间序列的分解预测

希望我整理的内容对路过的你有所帮助,点赞或评论,都是相互的鼓励~【问题】根据下图中某啤酒生产企业2010-2015年各季度的销售量数据,预测2016年各季度产量1. 绘制时间序列图,观察啤酒销售量的构成要素从上图可以明显看出,啤酒销售量具有明显季节成分,而且后面年份销量比前面年份高,因此其中含有趋势成分,但其周期性难以判断。可以认定啤酒销售量序列是一个含有季节性成分和趋...

2019-05-27 17:47:17 29021 4

原创 MySQL必知必会 代码+说明 全书整理

前不久收获一本《mysql必知必会》实体书,这周得空将整本书再次回顾了下。整理了书中全部的代码,加上了必要的语句说明。我所使用的软件版本:mysql workbench 8.0.15mysql必知必会这本书目前是2009年1月第1版的,由于mysql版本更新,书中的一些代码在8.0版本中已经不再适用。必要的调整,我在代码中都做了相应的备注。文件下载:书中样表创建所需脚...

2019-05-10 16:46:28 20842 15

原创 科大讯飞AI营销云广告投放数据分析报告【实战总结】

4月份项目实战的总结,前后进行了约20多天。花了大量时间在清洗数据,虽然耗时但是觉得过程中很享受,喜欢“静静地泡在里面”的感觉。另外,了解了涉及到的广告投放、业务指标体系、手机设备版本及API等相关知识,有趣!感受:分析问题的思路 比 代码的实现更为重要项目背景:2018科大讯飞AI营销算法大赛,点击去官网数据集:选用训练集数据round1_iflyad_train....

2019-04-27 22:33:57 3774 3

原创 摩拜单车骑行数据探索性分析【实战总结】

终于有整块时间,将前段时间学习实操的摩拜单车数据探索分析内容整理一下。工具:Python,使用到Pandas,seaborn,matplotlib,math第三方库。 内容:数据清洗,日期、地理位置特征提取、用户行为规律探讨及可视化。

2019-04-26 10:04:20 10835 26

原创 概率统计练手题【含方差统计、置信区间、线性回归方程】

做了几道概率统计题,整理分布~第一题美国房地产协会报道了美国房屋价格的中位数和 5年期间房屋价格中位数的增长率(《华尔街日报》.2006 年 1 月 16 日)。利用下面房屋价格(单位:1000 美元)的样本数据回答下列问题995. 9 48. 8 175. 0 263. 5 298. 0 218. 9 209. 0628.3 111.0 212.9 92....

2019-04-20 23:15:28 3222

原创 Pandas+Numpy 数据中空值的处理操作:判断、查找、填充及删除

本文整理了数据中空值的处理操作,主要内容如下:判断数据中是否有空值统计空值/非空值数量根据空值筛选数据查找空值索引删除空值 dropna()函数填充空值fillna()函数为了便于描述,定义本文示例数据为如下结构:df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A",...

2019-04-20 22:58:19 22100

原创 使用python requests+re库+curl.trillworks.com神器 实现淘宝页面信息爬取

慕课【Python网络爬虫与信息提取】课程随手练习~!和嵩天老师课程中的示范不同的是,淘宝页面现在不能直接爬取,要修改下访问请求的headers表头信息。目标:使用python的requests+re库+curl.trillworks.com神器,获取淘宝搜索页面的信息,提取其中的商品名称和价格。步骤:1. 导入必要的requests和re库。2. 使用requests库获取淘...

2019-04-07 21:11:46 3745

原创 使用Python+Pandas+Statsmodels建立线性回归模型预测房价

【综述】本文通过使用Python+Pandas+Statsmodels建立简单一元线性回归模型、多元线性回归模型来预测房价。主要内容来源自网页:https://www.learndatasci.com/tutorials/predicting-housing-prices-linear-regression-using-python-pandas-statsmodels/我在原文基础...

2019-04-01 15:59:00 14518 3

原创 Python list.insert() 遇上负索引

分享下使用insert函数时,参数index设置为负索引 negative index时的情况。insert()语法如下:list.insert(index, obj)index -- 对象 obj 需要插入的索引位置。 obj -- 要插入列表中的对象。insert函数时实现的功能是,在指定的索引位 之前 插入 参数中指定的对象。一般,在索引大于0的时候,我们不会发...

2019-03-28 19:32:29 2083 1

原创 EXCEL 正态分布概率计算 NORM.S.DIST()和NORM.DIST()函数

NORM.S.DIST () 和 NORM.DIST ()是excel 提供的两个函数,用于求正态分布下累计概率面积及曲线上对应的概率值,避免将正态分布标准化及查询标准正态分布概率表。NORM.S.DIST 函数返回标准正态分布函数(该分布的平均值为 0,标准差为 1)。可以使用此函数代替标准正态曲线面积表。语法 - 标准正态分布NORM.S.DIST(z,cumulative)...

2019-03-25 11:38:36 91831

原创 数据分析 概率统计相关练习

今天做了以下一些数分统计学练习,每一道题目都值得推敲,背后有很多有意思的著名推论。 答案为个人总结,欢迎大家留言交流~!1、一个包里有 5 个黑球,10 个红球和 17 个白球。每次可以从中取两个球出来,放置在外面。那么至少取________次以后,一定出现过取出一对颜色一样的球。答:至少取多少次以后,一定出现一对颜色一样的球,反过来想,每组颜色不一样的球,最多可以组成多少对,...

2019-03-22 18:44:40 2081

原创 Python sorted() 函数 和 sort() 函数

本文对比sorted()函数和list.sort()函数的语法和用法。sorted()函数对所有可迭代的对象进行排序,返回迭代对象中元素重新排序后组成的新list列表。sorted()排序不改变原始结构,临时排序。sorted函数语法:sorted(iterable,*,key=None,reverse=False)sorted函数有两个命名关键字参数key和rever...

2019-03-22 10:04:49 210

原创 离散型概率分布

目录1.1 随机变量1.2 离散型概率分布1.3 数学期望与方差、标准差1.3.1 数学期望1.3.2 方差1.3.3 标准差1.3.4 线性变换的通用公式1.3.5 独立观测值1.4 二项概率分布(binomial probability distribution)1.5 泊松概率分布(poisson probability distribution)...

2019-03-21 16:24:16 16706

原创 概率的基本概念

本文为概率的基本概念的总结,为学习安德森《商务与经济统计》第4章的笔记。里面涉及的重要公式都需要在理解的基础上,牢记于心~!目录1. 概率1.1 概率1.2 试验、样本空间、样本点1.3 计数法则、组合和排列1.4 事件及其概率1.5 概率的基本性质1.5.1 事件的补1.5.2 加法公式1.5.3 互斥事件1.6 条件概率1.7 独立事件...

2019-03-20 11:07:32 3144

原创 Python/Pandas Categorical对象labels和levels属性已弃用,改为codes和categories

《利用Python进行数据分析》,第7章-离散化和面元划分,这一章节提到Categorical对象,含有一个表示不同分类名称的levels数组和一个标号的labels属性。按照书中代码测试的时候,系统反馈:'Categorical' object has no attribute 'levels''Categorical' object has no attribute 'ind...

2019-03-13 15:48:13 3947 3

原创 Python/Pandas 数据规整/合并数据集Merge/Concat/Join/Combine_first函数

目录1 pandas.merge1.1 merge函数的语法1.2 单一键上合并1.2.1 key名相同1.2.2 两者key名不同1.3 多个键上合并1.4 连接键key之外,合并数据中两者存在重复列名1.5 索引上的合并1.5.1 使用单方DataFrame索引1.5.2 使用双方DataFrame索引1.6 层次化索引2Pandas.co...

2019-03-12 23:47:47 2339 1

原创 Numpy Random 随机数

Numpy可以根据一定的规则创建随机数,随机数的使用会在概率论,数据分析,数据挖掘的时候经常用到。官网主页Random本文整理Numpy Random常见的一些用法。目录np.random.rand(d0,d1,...,dn)np.random.randn(d0,d1,...,dn)np.random.randint(low,high=None,size=...

2019-03-11 23:58:43 524

原创 Jupyter notebook: Notebook validation failed: 'execution_count' is a required property

今天,将科赛网上的练习直接保存为.ipynb格式,并导入到我的jupyter notebook中,以便做练习时做好笔记记录。顺利导入jupyter notebook后,文件保存时,提示保存成功,但可能是无效操作。同时,提示:Notebook validation failed: 'execution_count' is a required property:...担心整理的笔记保存失...

2019-03-08 17:03:35 6361

原创 【Python】使用sorted()函数对一组tuple排序

【题】假设我们用一组tuple表示学生名字和成绩:L = [('Bob', 75), ('Adam', 92), ('Bart', 66), ('Lisa', 88)]请用sorted()对上述列表分别按名字排序:# 按名称排序L = [('Bob', 75), ('Adam', 92), ('Bart', 66), ('Lisa', 88)] def by_name...

2019-03-08 11:54:49 6272

原创 Python基础练习题

同上一篇,依旧是上周末做的练习题笔记。笔记代码直接从jupyter notebook笔记本中导出的,因为此,所以有些代码中,输出语句中没有print。参考时,请注意咯!1 列出python中可变数据类型和不可变数据类型,并简述原理答:Python中可变数据类型有:列表、字典、集合;不可变数据类型有:数值型、字符创、元祖【了解】不可变数据类型: 当该数据类型的对应变量的值...

2019-03-04 19:57:40 1668

原创 Python基础练习题笔记

学习的时间过的真快,每天都觉得时间不够用。看到新的知识点,在查询资料的过程中,知识网越铺越大,想一直泡在里面!目前了解到Pandas库,操作好强大。略兴奋!这篇是上周末做的练习题笔记,从jupyter notebook中导出。多读书,惜四时!1. 一行代码实现1--100之和# 一行代码实现1--100之和# print(sum(list(range(1,101))...

2019-03-04 19:30:37 411

原创 PYTHON笔记2

tuple元祖元祖的格式和用法几乎和列表一致,唯一的区别就是元祖是不可更改的序列,因此你只能从元祖中查找元素,但是不能修改元素。元祖的创建有以下几种方式:使用一对圆括号:( ) 如 a =(1,2,3) a[1]=2使用tuple关键词:tuple(),如a = tuple([1,2,3])字典字典是以键值对(key-value)的形式存储数据,可以在O(1)的时间复...

2019-02-26 14:45:00 152

原创 PYTHON笔记1

Hello WorldPrint输出函数; 字符串要使用单引号‘’,或者双引号“” 在jupyter notebook中运行代码,可以点击菜单栏‘运行’按钮,或者直接快捷键ctrl+回车 # 表示注释,方便代码阅读。注释内容不会被运行 代码可以写在一个txt文件中,保存为.py格式,用软件运行 字符串拼接,可以直接用加号 + 使用库,用import导入,如import math 使...

2019-02-25 22:55:28 323

原创 《Mysql必知必会》学习笔记

《Mysql必知必会》学习笔记第一章 了解SQL数据库(database)是保存有组织的数据的容器(通常是一个文件或一组文件)。数据库软件应称为DBMS(数据库管理系统)。数据库是通过DBMS创建和操纵的容器。我们并不直接访问数据库,我们使用的是DBMS,它替我们访问数据库。 主键(primary key):一列(或一组列),其值能够唯一区分表中每个行。唯一标识表中每行的这个列(或这组...

2019-02-22 10:59:13 289

原创 Mysql回顾总结2

group by 语句 使用group by 进行数据分组,对每个组应用函数 GROUP BY 语句用于结合聚合函数,根据一个或多个列对结果集进行分组 分组检索出的结果,需要具有可以分组的属性,如组平均,组的区域名等等。但组内每个样本的序号id是不能select检索的,因为不具有分组的属性 使用having对组进行过滤 在 SQL 中增加 HAVING 子句原因是,WHERE 关...

2019-02-17 22:46:26 218

原创 Mysql 回顾总结1

基础知识 数据库(database) 保存有组织的数据的容器 Mysql是数据库软件 表(table) 某种特定类型数据的结构化清单 列 (column) 表中的一个字段。所有表都有一列或者多列组成的。每一列都有对应的数据类型 行(row) 表中的一个记录 主键(primary key) 一列(或一组列),其值能够唯一区分表中每个行。表中每一行都应该有可以唯一标识自己的...

2019-02-16 22:41:39 143

原创 Mysql Workbench安装-提示Unsupported Operating System

安装Mysql WorkbenchMysql Workbench 是用来写Mysql脚本的一个IDE编辑器。在没有安装Mysql的情况下,可以通过参数设置直接连接上数据库。orkbench是用来写MySQL脚本的一个IDE。同样的,请选择对应系统的对应版本1. Mysql Workbench官方下载地址https://dev.mysql.com/downloads/workbenc...

2019-02-15 23:57:42 15589 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除