自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 决策树模型及scikit实现

一 基本概念: 根节点: 第一个选择点 叶子节点: 最终的决策结果 非叶子节点和分支:中间过程 熵:来源于化学的概念,随机变量的不大确定性的度量。不确定性越大,熵越大。计算公式 比如,一枚硬币投掷一次,正负的概率都是0.5 ,那么熵计算公式: H(x)=-(0.5log2 0.5+...

2019-12-02 22:14:09 19 2

原创 Python使用Flask实现文件上传和访问

安装: 在pycharm里面新建一个虚拟环境的工程 pip安装(本次安装的版本 是0.10.1 python版本是2.7 ) 如何copy依赖安装包? pip freeze >requirements.txt pip install -r requirements.txt 新建...

2019-08-25 18:49:15 334 0

原创 python 安装impala报错及解决办法

from impala.dbapi import connect 执行的时候报connect找不到 ,如果只 pip安装impyla是不行的. https://github.com/cloudera/impyla 官网可以看到依赖的包 Dependencies Required: ...

2019-07-23 17:43:03 2384 0

原创 《增长黑客》读书笔记

作者:范冰 (以下称作者 ) 本人(以下称 我) 第一章 : 增长黑客的崛起 Hotmail,第一个基于网页的邮件客户端,之前一直在线下打广告,离目标用户太远,花费巨大。后来在每个用户的邮件后缀打广告,0成本实现了快速的扩张。 AARRR模型:获取,激发,留存,增加收入,传播推荐。 获取...

2019-04-08 21:30:12 1261 0

原创 地图可视化方案优缺点总结

地图可视化实现方式: excel——power map : 优点 :方便易用,热力图调节比较方便,视频发布 缺点:定位不是很准,无法到经纬度,发布的话,线上被封死了。 echarts: 优点:高度可调,基本上可以按照你想要的样子定制。交互方案多,效果好,适合做大屏 缺点:数据吞吐量不大...

2019-03-12 08:57:40 1694 0

原创 基于KNN的分类模型-预测美团外卖城市等级

需求介绍 美团有自己的城市等级,外卖依据其业务体量,重新划分了外卖的城市等级。这个城市根据其业务情况来划分的,比较详细。 现在有以下样本数据。 city_name city_level pnum ddl 临汾 D2 ** ** 南京 A ...

2019-03-01 10:15:42 264 0

原创 python对用户评价内容进行语义情感分析

使用 QQ 号登陆腾讯云官网 https://www.qcloud.com/, 在管理中心,获取的 SecretId 和 SecretKey。 背景:用户在点评平台上的评价文本内容,有时候感情色彩和打的分值并不相同,为了更准确的反映用户的感情色彩 我们获取文本内容后,通过腾讯的语义分析平台进行...

2019-02-25 20:48:01 1719 2

原创 基于SAS的主成份分析——美团某业务增长原因分析

备注: 本文所有数据都是模拟数据, 已经脱敏 简介: 主成份分析(PCA),把多个指标转化为少数几个综合指标的降维思维。 核心思想是把m个相互存在关系的指标变量,转化为彼此独立的一组新的n个指标,一般n<m 比如研究儿童发育的指标可能有m个,其中的腿长,胳膊长,身高等指标我们可以汇总...

2019-02-23 19:42:51 305 0

原创 python机器学习scikit-learn线性回归及决策树分类

一 安装scikit-learn  依赖numpy,SciPy,mkl  如果包来源不同,有的使用whl,有的使用pip官方安装,会造成执行程序的时候报错,找不到模块。 解决办法是,卸载所有的包,统一来源,重新安装。 插播一个神奇的网站:http://sklearn.apachecn.or...

2019-02-16 21:21:16 207 2

原创 python绘图工具plotly研究

plotly功能比较全,传统如matplot更多的是面向基础绘图组件的编辑。大部分情况下,我们更在乎的是可视化展现效果,因此plotly这种快速,漂亮,简单的可视化解决方案挺不错。 但是呢,plotly也会有比较坑的地方,比如你要注册账户生成apikey,使用前必须写:  plotly.to...

2019-02-13 14:37:07 1749 4

原创 python-地图可视化组件folium

folium是python的一个用来绘制地图,并在地图上打点,画圈,做颜色标记的工具类。简单易学,和pandas可以很好的融合,是居家必备良品。 一 基本功能演示 import folium import webbrowser m=folium.Map(location=[40.009...

2019-02-11 15:19:03 15650 7

原创 numpy功能手册

numpy

2019-01-26 17:08:42 902 0

原创 maplotlib.pyplot学习笔记

参见 online guide: https://matplotlib.org/tutorials/index.html 代码解析: import matplotlib.pyplot as plt import numpy as np x=np.arange(0,10,0.2) ...

2019-01-13 17:57:06 105 0

原创 scrapy爬虫框架结合BeautifulSoup

①安装scrapy pip install scrapy 依赖的包 python-lxml python-dev libffi-dev

2017-08-10 23:00:15 604 0

原创 BeautifulSoup初体验

欲学爬虫,scrapy是python的重点,scrapy是框架,核心还是解析html元素,这方面专业的还是BeautifulSoup。 这是官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id9 ...

2017-08-03 22:30:47 311 0

原创 scikit-learn对天气数据进行回归分析

一:实验背景: 结合《python数据分析实战》里面的方法,对山东的十个城市的6月17日的气温进行收集,分析气温和距离海岸线距离(以下简称s)的关系. 用到的库 matplotlib 库画出图像 scikit-learn 库对数据进行回归分析 numpy 库对数据进行切片 工具:pyc...

2017-07-17 21:05:17 789 0

原创 pymysql访问mysql数据库并且plotly实现可视化

①python和mysql数据库的交互 MysqlDb和pyMysql,推荐使用后者官方文档:http://pymysql.readthedocs.io/en/latest/user/examples.html pymysql import pymysql.cursors conn=p...

2017-07-12 22:51:18 1984 0

原创 数据仓库C

存储格式 文本导入到hive中,必须是TextFile格式. RCFile 存储空间TextFIle

2017-06-07 21:26:54 198 1

原创 数据仓库B

HDFS Hadoop Dietribute Filesystem 存储块 block MapReduce Map-combiner-shuffler-reduce YARN介绍 ZoopKeeper 用于故障转移,当资源管理器失败后,另一个可以马上恢复....

2017-06-03 18:50:46 199 0

原创 数据仓库A

BI 企业大数据服务结构 大数据etl技术 Informatica datastage之类的已经不用了,现用大数据的定制化开发. greenPlum之前使用的大数据etl平台 ①SCD问题处理方法并举例 ②ODS是什么,在数据仓库的作用. :ods是...

2017-05-30 12:42:31 508 0

原创 GIT学习笔记

安装: Mac:https://sourceforge.net/projects/git-osx-installer/ Windows:https://git-for-windows.github.io/ Linux:apt-get install git 验证安装 cmd输入 ...

2017-04-20 22:03:53 158 0

原创 JavaWeb前端知识-JQuery

介绍: 第三方的js库,包含以下特性 HTML元素获取,HTML元素操作,CSS操作,HTML时间函数,JavaScript特效和动画,AJAX,Utilities. http://www.jquery.com –下载 $(document).ready(function(){}) --...

2017-04-17 23:00:23 173 0

原创 JavaWeb前端知识-JavaScript进阶

① 错误处理 第一:try catch错误处理function f1(){ try{ alert("ss"); add(); } catch (e) { document.getElementBy...

2017-04-10 23:00:20 222 0

原创 JavaWeb前端知识-JavaScript基础

JavaScript是世界上最流行的语言之一,一种轻量级的语言,可插入html页面,由浏览器执行.标准名称:ECMA 功能: - 写入HTML输出 - 对事件做出反应 - 改变HTML内容 - 改变HTML图像 - 改变HTML样式 - 验证输入 使用: 在或...

2017-04-09 19:05:32 172 0

原创 JavaWeb前端知识-CSS进阶

表格:

2017-04-05 20:05:32 170 0

原创 JavaWeb前端知识-CSS初级

简介; css Cascading Style Sheets 层叠化样式表

2017-03-26 23:16:55 134 0

原创 MongoDb数据库-I基础

sd

2017-03-25 20:12:24 176 0

原创 Linux常用命令

home /tom root :chaojiguanliyuan

2017-03-24 22:13:12 156 0

原创 JavaWeb前端知识-HTML

HTML的组件介绍 ①基本结构 第一部分是头文件<html> <head> <meta> </head> --------------------------------- <body> <...

2017-03-18 23:59:27 309 0

原创 Python文件操作

A接收用户输入, input函数 =input("提示信息") 输出数据 print 函数 %s 字符串 %d 数字 B打开文件 =open(文件地址,r/w/r+,Buffer) .close() 关闭文件 读取文件内若能 .read() readlines/readline

2017-03-11 16:04:16 128 0

原创 Python数据结构

A列表: a=['安徽','浙江','福建'] 相同数据类型,并且通过0,1,2,3索引可以引用值. 函数:  print() len() append() insert() 插入 extend() 复制 + 合并 d...

2017-03-08 22:07:12 149 0

转载 pandas基础操作

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包: 一、            创建对象 可以通过 Data Str...

2016-05-17 10:58:48 252 0

原创 Java-字符串操作和正则表达式

hive的正则匹配用的是java那一套 一:字符串基本操作   String s1="ac"; //不创建对立对象的新建方式byte bys[]=new byte[]{'e','y','l'};String s2...

2015-07-24 14:49:48 170 0

提示
确定要删除当前文章?
取消 删除