qiu_zhi_liao-CSDN博客

原创 Faker库：一个数据造假的神库

'''你还在手敲数据吗？你需要数据造假吗？你想要高效生成数据吗？faker库可以帮到你！！！安装方法：pip install faker'''from faker import Faker #导入一个Faker类faker=Faker()#实例化为faker对象#调用它的name，address，test方法,随机生成看起来很真的英文姓名，地址，长文本！print('nam...

2019-08-07 09:57:33 798

原创算法和数据结构

**算法和数据结构**122.已知：```AList = [1,2,3]BSet = {1,2,3}```(1) 从 AList 和 BSet 中查找 4，最坏时间复杂度那个大？(2) 从 AList 和 BSet 中插入 4，最坏时间复杂度那个大？123.用 Python 实现一个二分查找的函数124.python 单例模式的实现方法125.使用 Python 实现一个斐波...

2019-06-30 20:30:20 346

原创 python数据结构练习

array与DataFramey_train=np.array([-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1])print(y_train[0])y=pd.DataFrame(y_train)print(y[0])输出-10 -11 -12 13 14 -15 -16 -17 18 ...

2019-06-30 00:49:38 355

原创 python编程-迭代器（类，方法，继承），函数，数据结构，

a, b = 0, 1while b < 10: print(b) #print(b,end=',') a, b = b, a+b相当于n=bm=a+ba=nb=m输出：112358#输出：1，1，2，3，5，8关键字end可以用于将结果输出到同一行，或者在输出的末尾添加不同的字符！条件控制：1、每个条件后面要使用冒号:...

2019-06-26 23:41:11 864

朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 机器学习包sklearn 的全称叫 Scikit-learn，它给我们提供了 3 个朴素贝叶斯分类算法，分别是高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯MultinomialNB）和伯努利朴素贝叶斯（...

2019-05-31 19:08:58 1470

原创朴素贝叶斯分类:原理

贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人，他的经历类似梵高。生前没有得到重视，死后，他写的一篇关于归纳推理的论文被朋友翻了出来，并发表了。这一发表不要紧，结果这篇论文的思想直接影响了接下来两个多世纪的统计学，是科学史上著名的论文之一。贝叶斯原理贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章，尝试解答在没有太多可靠证据的情况下，怎样做出更符合数学逻辑的推测。什么是“逆...

2019-05-29 15:29:54 91309 32

原创实战：关联规则挖掘

如何使用 Apriori 工具包Apriori 虽然是十大算法之一，不过在 sklearn 工具包中并没有它，也没有 FP-Growth 算法。。这里教你个方法，来选择 Python 中可以使用的工具包，搜索工具包。efficient-apriori 1.0.0找到这个工具包，然后在终端（windows 中叫anaconda prompt）输入：pip install effici...

2019-05-22 19:05:32 2190 1

原创关联规则挖掘

关联规则挖掘可以让我们从数据集中发现项与项（item 与 item）之间的关系，它在我们的生活中有很多应用场景，“购物篮分析”就是一个常见的场景，这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系，进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量。所以说，关联规则挖掘是个非常有用的技术。搞懂关联规则中的几个概念我举一个超市购物的例子，下面是几名客户购买的商品列表：支持度支持...

2019-05-22 11:48:39 9608 2

原创 knn实战：如何对手写数字进行识别？

在 Python 的 sklearn 工具包中有 KNN 算法。KNN 既可以做分类器，也可以做回归。如果是做分类，你需要引用：from sklearn.neighbors import KNeighborsClassifier如果是做回归，你需要引用：from sklearn.neighbors import KNeighborsRegressor如何在...

2019-05-19 18:48:06 803 1

原创 KNN算法原理

k-NearestNeighbor，翻译为K最近邻算法，是数据挖掘算法中最简单的一种算法。我们先用一个例子体会下。我们很容易知道，这些电影的类型，那么当有一部新电影出现的时候，可不可以对其进行自动分类了？我们可以把打斗次数看成 X 轴，接吻次数看成 Y 轴，然后在二维的坐标轴上，对这几部电影进行标记，如下图所示。对于未知的电影 A，坐标为 (x,y)，我们需要看下离电影 A 最近的...

2019-05-19 11:46:59 5835

原创 SVM实战：如何进行乳腺癌检测

如何在 sklearn 中使用 SVMSVM 既可以做回归，也可以做分类器。当用 SVM 做回归的时候，我们可以使用 SVR 或 LinearSVR，即support vector regressionLinearSVR用来处理线性可分的数据，也就是说，使用的线性核函数如果是针对非线性的数据，需要用到 SVC。在 SVC 中，我们既可以使用到线性核函数（进行线性划分），也可以使用高纬...

2019-05-18 17:45:05 4124

原创支持向量机SVM算法原理

SVM 的英文叫 Support Vector Machine，中文名为支持向量机。它是常见的一种分类方法，在机器学习中，SVM 是有监督的学习模型。什么是有监督的学习模型呢？它指的是我们需要事先对数据打上分类标签，这样机器就知道这个数据属于哪个分类。同样无监督学习，就是数据没有被打上分类标签，这可能是因为我们不具备先验的知识，或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作，比...

2019-05-08 17:26:09 1631

原创 python扫盲系列（5）--列表、元组、字典、集合

特征常见用法不可变数据数字=123 用于计算，没有索引；注意优先级（**》*/》not》and》or） >>> 17 % 3 # 取余 2 字符串='' Python 字符串不能被改变，可以添加索引常用用法：+字符串，*2复制2遍 a='string' a[0]='c' #非法...

2019-05-02 16:52:04 336

转载如何做到自动化运营--数据驱动

这篇文章，只是以数据分析的视角进行一个自动化运维的解析，不提供代码和具体技术，就当作培养数据思维了。我们都知道很多社交网络上可以刷粉，也可以刷阅读量，这已经形成了一个“产业链”。那么如何通过技术来实现了？首先我梳理了一下整个流程，可以分成 3 个步骤。1. 多个手机号---现在账号注册都是需要绑定手机号的，所以手机号是必备的。2. 多个 IP--共用同一个 IP，一定会被封...

2019-05-02 16:48:38 1550

转载数据抽象能力---适合任何行业

用户画像的准则首先就是将自己企业的用户画像做个白描，告诉他这些用户都是谁”“从哪来”“要去哪”。设计唯一标识可以从这些项中选择：用户名、注册手机号、联系人手机号，邮箱、设备号、CookieID 等。其次，给用户打标签。“用户消费行为分析”。我们可以从这 4 个维度来进行标签划分。用户标签：它包括了性别、年龄、地域、收入、学历、职业等消费标签：消费习惯、购买意向、是否对促...

2019-05-02 16:48:11 707

原创 python之微信机器人

import itchatimport pandas as pditchat.auto_login(hotReload=True)friends=itchat.get_friends(update=True)def get_attr(friends,key): return list(map(lambda user:user.get(key),friends))ni...

2019-05-02 16:47:40 321

原创 Python科学计算：Pandas

Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高，转换起来就很方便。如果说，在 NumPy 中数据结构是围绕 ndarray 展开的，那么在 Pandas 中就有Series 和 DataFrame 这两个核心数据结构，分别代表着一维的序列和二维的表结构。数据结构：Series 和 DataFrameSeries 是个定长的字典序列。说是定长是因为在存储的时...

2019-05-02 16:47:07 449

原创 Python科学计算：用NumPy快速处理数据

写在前面：大家再读别人文档的时候，一定有过以下方面的苦恼：1、为啥我复制别人的代码总是执行报错；（内心mmp，劳资就是想学个技术，咋就这么难了？？？）emmn，一定是你的计算机环境与别人不一样；（强烈建议大家回答问题，写文档时加上自己的开发环境和使用软件的版本。）比如我现在就想学习数据分析，那么第三方库Numpy，Pandas就是必须的；可是，一般的书籍上来就推荐你用python2...

2019-05-02 16:45:17 1164 1

原创决策树数学原理（ID3,c4.5,cart算法）

上面这个图就是一棵典型的决策树。我们在做决策树的时候，会经历两个阶段：构造和剪枝。构造简单来说，构造的过程就是选择什么属性作为节点的过程，那么在构造过程中，会存在三种节点：根节点：就是树的最顶端，最开始的那个节点。在上图中，“天气”就是一个根节点；选择哪个属性作为更节点！内部节点：就是树中间的那些节点，比如说“温度”、“湿度”、“刮风”；选择哪些属性作为子节点！叶节点...

2019-05-02 16:44:14 1604 1

原创决策树算法实现

ID3，c4.5只用于做分类，得到的结果是连续值；cart既可以做分类，也可以做回归，得到的结果是连续值。CART 分类树在 Python 的 sklearn 中默认采用的是 CART 分类树。下面，我们来用 CART 分类树，给 iris 数据集构造一棵分类决策树。在 Python 的 sklearn 中，如果我们想要创建 CART 分类树，可以直接使用 DecisionTreeCla...

2019-05-02 16:43:39 326

原创 python扫盲系列--（4）

python中的常用数学函数：import mathprint (abs(-1))print (math.ceil(3.4)) #返回数字的上入整数print (math.ceil(-3.1))print (math.exp(3)) #返回e的x次幂,e=2.718281828459045print (math.log(100,10)) #以10为底数，print(math.l...

2019-05-02 16:42:41 210

原创 python3扫盲系列-（3）

Linux/Unix的系统上，一般默认的 python 版本为 2.x，我们可以将 python3.x 安装在/usr/local/python3目录中。安装完成后，我们可以将路径/usr/local/python3/bin添加到您的 Linux/Unix 操作系统的环境变量中，这样您就可以通过 shell 终端输入下面的命令来启动 Python3 。PATH=$PATH:/us...

2019-05-02 16:41:58 172

原创 python扫盲系列-（2）

Python 使用反斜杠(\)转义特殊字符，如果你不想让反斜杠发生转义，可以在字符串前面添加一个 r，表示原始字符串：--------------------文章内容来自菜鸟教程；（仅用做学习！）Python 中的变量不需要声明。每个变量在使用前都必须赋值，变量赋值以后该变量才会被创建。在 Python 中，变量就是变量，它没有类型，我们所说的"类型"是变量所指的内存中对象的类型。等号...

2019-05-02 16:41:26 224

原创 python 扫盲系列（1）

#!/usr/bin/python3 print("Hello, World!")---------------------内容来自菜鸟教程。（仅作为学习使用！）你可以将以上代码保存在 hello.py 文件中并使用 python 命令执行该脚本文件。$ python3 hello.py关于实例中第一行代码#!/usr/bin/python3的理解：分成两种情况：...

2019-05-02 16:38:07 222

转载数据分析项目某电商app行为数据分析（1）

安装mysql数据库（官网下载即可，免费）安装过程如下：MySQL数据库安装安装数据库客户端（官网下载试用版或破解版），安装过程如下数据库客户端安装数据集下载：天池竞赛将下载到的csv文件导入到mysql数据库，参考以下：excel导入mysql库拿到数据，先看一眼数据长啥样，是否有null值，什么样的数据类型；select * from tianchi_mobile_rec...

2019-04-27 00:32:16 1957

原创 pycharm使用import numpy报错

遇到这个问题的主要原因是 PyCharm 会给每一个新建的项目都是一个全新的虚拟环境。在这个环境下，默认的包只有 pip、setuptools 和 wheel 这三个工具，你可以在 File->Settings 里面找到这个界面。这说明 numpy 并没有配置到你创建的这个 Project 下的环境中，需要手动点击右侧的 + 号，对 numpy 进行添加。添加之后就可以正...

2019-01-20 18:18:53 12976 3

原创 R绘图 vs Python绘图(散点图、折线图、直方图、条形图、箱线图、饼图、热力图、蜘蛛图)

写在前面：为啥不用excel绘制这些图，用PoweBI，帆软BI等可视化软件来绘图，不是更方便吗？的确，这些工具都很方便，但同时，它们显得很呆，不够灵活，更为致命的是，它们绘制出的图形，分辨率不够，用来出版论文，是不合格的。所以，要做学术的朋友，对R，Python可视化绘图感兴趣的朋友，不妨下点功夫将这些技术学到手。我之所以，将自己花费4个晚上，8个小时整理出来的文档分享出来，无非是为了减少大...

2019-01-19 00:42:28 8002

原创数据分析思维框架---认知决定差异

当发现近4天的订单量明显下滑；这就引起了产品经理的注意。产品经理分析：是否有负面报道在被扩散，是否竞争对手在做活动，是否某商品缺货，价格异常，一通发问，并没有找到原因。于是将其当作需求抛给了数据分析团队；BI是这样做的：数据验证：绘制近一周的订单折线图，发现的确有明显的下滑。数据探索：是不是新增用户过多导致的，绘制同期新增用户图，发现二者从图上看并没有相关关系是不是日活过...

2019-01-14 18:40:09 532

原创数据可视化（推荐Tableau、 PowerBI 、FineBI、Echarts、ggplot、PYTHON、R）---数据分析领域的万金油技能

首先，这是一篇扩大知识面的文章，适合收藏起来，在地铁，公交，厕所，睡前，吃饭时看。。。。（耶，恶趣味）其次，本文不放图，节省大家的阅读时间（但还是很有必要看的，它教会你如何做图的主人！）。我们常用的可视化视图超过 20 种，分别包括：文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图...

2019-01-14 11:41:12 24848 2

转载数据转换

数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。数据平滑：去除数据中的噪声，将连续数据离散化。可以采用分箱、聚类和回归的方式进行数据平滑。数据聚集：对数据进行汇总。数据概化：将数据由较低的概念抽象成为较高的概念，比如说上海、杭州、深圳、北京可以概化为中国。数据规范化：使属性数据按比例缩放。特征工程：对现有属性进...

2019-01-13 23:15:24 537

转载数据集成--ETL工具

背景：不同平台都可以获得用户，这些用户之间可能是交叉重复，比如你之前在A平台注册了，后来你又在B平台注册了。而不同的平台存储数据的表结构，表字段可能不同。最有代表性的，美团合并了大众点评，两家外卖平台的数据必须整合在一起，才能发挥更大的商业价值----数据集成。数据集成的两种架构：ELT 和 ETL一般来说，数据工程师的工作包括了数据的 ETL 和数据挖掘算法的实现。算法实现可以理解，就是...

2019-01-13 18:04:41 5899

原创数据清洗---占据了数据分析师80%的时间

以点一份披萨为例，讲清数据分析全流程。01播种农场的西红柿提供了披萨的配料，在农场播种西红柿种子。这就相当于数据生成过程，比如用户操作，触发传感器，前端埋点等。02收获采摘成熟的西红柿。这就相当于数据收集，将用户的交互行为记录为实际数据。友盟等就提供了第三方的埋点支持。03运输西红柿被运往目的地。这就相当于数据被存储在数据库或数据湖中。04选择厨具和设备每种食材...

2019-01-13 17:01:00 1558

转载如何自动化采集数据

python爬虫会经历三个过程：1，使用Requests爬取内容。2，使用xpath解析内容3，使用pandas保存数据，将数据存储在mysql数据库中常用的软件爬虫：1，火车采集器，使用绝大多数网页，网页中能看到的内容都可以采集2，八爪鱼，免费的采集模板适合电商，生活服务，社交媒体，论坛；云采集，配置好采集任务，就可以交给八爪鱼云端进行采集---八爪鱼一共5000...

2019-01-08 00:55:48 2328

原创用PYTHON绘制中国地图VS用R绘制中国地图

2019-01-01 22:34:09 6855 2

原创 python基本语法

写在前面：浙江大学 ACM 的 OnlineJudge，练习python语法结构：http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=1 leetcode各种编程语言刷题：https://leetcode.com/与解答:https://www.jiuzhang.com/solution/ pycharm（写爬虫做大项目必...

2018-12-23 11:17:53 231

转载数据分析步骤

数据挖掘的过程可以分成以下 6 个步骤。商业理解：数据挖掘不是我们的目的，我们的目的是更好地帮助业务决策；所以的从实际商业需求出发，在这个基础上，再对数据挖掘的目标进行定义。数据理解：尝试收集部分数据，然后对数据进行探索，包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。数据准备：开始收集数据，并对数据进行清洗、数据集成等操作模型建立：选择和应用各种数据挖掘模型，...

2018-12-20 01:08:34 885

转载数据分析全景图

在做数据分析项目时：1. 不重复造轮子一个模型是否有相关的类库可以使用——这几乎是每个程序员入行被告知的第一条准则。我也会对新人反复灌输这个概念。大部分情况下你都能找到类库来完成你的想法。2. 工具决定效率工程师会选择使用者最多的工具。因为：Bug 少、文档全、案例多。学习方式：1、代码一定要敲，写好注释进行分享2、思维导图一定要画，帮你总结得失3、工作中经常做分享...

2018-12-20 00:25:54 1214

转载数据分析导论

当时恰好赶上 2009 年微博的热潮。我用 3 个月的时间就就积累了 4 万粉丝，一年的时间积累了上百万粉丝。这是怎么做到的呢？通过数据采集，我收集了每天的微博热点，然后对热点进行抓取、去广告，再让机器定时自动进行发布。同时我让账号每天都去关注明星的粉丝列表，这样可以获得 15% 的回粉概率。久而久之，就会有源源不断的粉丝。其实就是数据分析帮我做到了微博的自动化运营。学习数据分析的核心就是...

2018-12-20 00:04:38 764

转载 mysql中一条SQLupdate语句是如何执行的？redo log 与binlog

mysql> create table T(id int primary key,c int);mysql> update T set c=c+1 where id=2;大体流程与查询流程是一样的：先是检查连接权限，然后经过分析器，知道是更行语句，查询缓冲遇到更行语句就清空该表的查询缓存；优化器决定使用id这个索引并生成执行计划；执行器负责执行，找到这一行，并进行更行。与查...

2018-11-17 23:20:17 1171

转载 mysql中，一条select语句是如何执行的？

接下来通过语句弄明白整个Select语句的内部运行状态：连接器：Mysql>mysql -uroot -p你首先连接到这个数据库上；链接器负责跟客户端建立连接，获取权限，维持和管理连接 ●如果密码不对，你会收到“access denied for user”，然后客户端程序执行结束 ●如果密码认证通过，连接器会从权限表里查出你的权限；之后你所有的操...

2018-11-17 23:09:56 1123

空空如也

空空如也