自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 近期使用的pandas小结

使用pandas的groupby,和pivot_tabe,cross_tab,进行分组统计、进行基本的sum\mean\count的小计和汇总,确实很方便。也可以方便的进行excel读写、以及sqlite的读写。对近期需要定期做的电商pv、uv统计对比方便不少。另外,ipython notebook确实是学习python的利器,最近看看notebook,比博客更直观的回顾自己的工作过程。

2016-11-23 19:01:37 416

原创 用python的sqlite3维护多站的车系车型信息库

把各个汽车垂直站的车系代码维护和标准车系代码的关系。这样便于在各个垂直媒体站上,能够比较全面的收集到用户的汽车关注的行为。维护站点车系和标准车系代码的关系:比如:INSERTINTO car_series VALUES ('13477','6787','宝来','http://car.auto.ifeng.com/series/6787','0','9','525');   

2016-10-28 19:36:18 365

原创 一个解读聚类分析的可视化结果的例子

分析一个运动类APP的用户构成,用聚类方式,分析出,运动健将,慢跑持续型,忽冷忽热型,等类型用户,占个位置,稍后补上。

2016-09-20 11:58:44 6639

原创 python中从字符串中截取中文和英文字符

# -*- coding: utf-8 -*-#encoding=utf8import os,sys,re## test_str1='蒙派克E'## test_str2='新ABC蒙派克'## test_s1 = test_str1.decode('utf-8')# test_s2= test_str2.decode('utf-8')## pat_1 = re.compile

2016-09-20 11:55:32 7496

原创 这两天看的书,AOP模型,市场运营模型

这两天一方面看Tableau的计算的逻辑和数据处理,另一方面用Python做把从汽车资讯网站抓取到的车型信息清洗、代码对应,然后入库的工作。 车型匹配,因为各个资讯网站的信息维护的并不精准、维度不一,所以要想打通没有想象的那么容易,即便人肉搜索之后肉眼识别判断到底是不是同一个车型,也是不易。怎么判断呢?想了几个方面综合来判断,车系的名称、年款、价格、甚至尺寸,争取能匹配到超过百分之九十,再

2016-09-11 18:07:26 777

原创 近期使用的python高效小技巧汇总

最近常用的Python数据处理的小技巧1.元组的列表去重元组或者列表如果做hash会报错。所以可以使用先放到一个汇总列表里,然后用set函数的方法。test_tuple1_list=[('a','b')]test_tuple2_list=[('a','c')]test_tuple3_list=[('a','b')] test_tuple1_list.extend(t

2016-09-07 11:22:41 728

转载 转自:数据有意思;数据清洗的经验

http://www.36dsj.com/archives/22737平时习惯了在某些特定的数据集合上做实验,简单的tokenization、预处理等步骤就足够了。但是在数据越来越大的年代,数据清洗越来越重要,也越来越复杂。看到Philip J.Guo 的这篇英文文章《Parsing Raw Data》觉得不错,学习并译成中文,难免谬误,仅供参考。前言科研工作者、工程师、业务分析者

2016-09-05 12:29:13 2202

原创 温伯格的《系统化思维导论》,结合《语言本能》《改变》《科学革命的范式》和逻辑学的一些书,谈谈学科的边界

学无止境,越看书越暴露自己的认识和能力的缺乏,看这类系统思维类的书,感到智商需要充值,尤甚。什么事情,都害怕认真二字,因为一认真,就要面对普通人在做人做事方方面面的考虑的欠缺。软件开发也是如此,软件开发涉及各种实体各种事情的抽象,一旦较真,要考虑的事情尤其多,更何况是工业级的软件开发。温伯格就是在这条路上用自己的多年深入的较真,为广大想要认真却在和无序熵对抗中遍体鳞伤的人们,试图助人一臂之力。

2016-09-03 19:39:20 1444

原创 BeautifulSoup简单的自助抓取一点信息

#!/usr/bin/envpython# -*- coding: utf-8 -*-#coding:utf-8import urllib2from bs4import BeautifulSoupoutput_file=open('qczj_brand_changshang.txt','a')url_test='http://car.autohome.com

2016-08-31 23:42:53 551

转载 回车符,换行符的区别

回车符号和换行符号产生背景:     关于“回车”(carriage return)CR 和“换行”(line feed)LF 这两个概念的来历和区别。在计算机还没有出现之前,有一种叫做电传打字机(Teletype Model 33)的玩意,每秒钟可以打10个字符。但是它有一个问题,就是打完一行换行的时候,要用去0.2秒,正好可以打两个字符。要是在这0.2秒里面,又有新的字符传过来,那么这个字

2016-08-31 14:45:43 3472 1

原创 利用tableau集功能,分析看车潜客的颜色偏好

比如,有一份样例数据,显示长安的潜客,和众泰的潜客,分别喜欢看什么颜色的车,看各种颜色的人数有多少。但是颜色比较琐碎,考虑从颜色里创建集。 比如,查看人数最多的TOP N中颜色。 看到集合的定义很灵活,可以自己定义列表,也可以自己定义条件,也可以选择TOP, 比如,我们想让用户可以灵活的指定看TOP多少,于是这里创建一个参数‘最受欢迎的TOP N’,这个参数作为

2016-08-31 00:39:05 3884

原创 tableau分组,灵活的对各个省分组统计

Tableau的分组,不仅仅可以灵活的指定柱状体的分组,而且可以灵活的把维度或者度量也分组。 比如,我想把江西和河南算一个组比如华中组,那么,我不用一个一个的把所有江西和河南的条形全选上,只需要随便选中两个江西和河南,然后右键,点别针的图表,选上,六省,就行了。   这样,就看到,所有的江西和河南的条形图,都被算作了一个组;而且可以给这个江西&河南组以不同的颜色。

2016-08-31 00:30:37 16680

原创 tableau利用参数做动态图表,快速知晓数据概貌

比如,我们有一份样例数据,里面是各人在一段时间内查看汽车资讯的次数。 其中,只查看了一次的占绝大多数,查看了两次,3次,4次的递减。 那么我们把查看多少次,算作这些人群中比较‘关注’的人呢? 这时候,最好就是查看一下各个次数各有多少人,看看在人群中的占比。 如果一项一项的看又太不直观了,希望能一段一段的看,比如,10次一个步长,或者5次一个步长,或者100次算一

2016-08-30 14:54:54 11574

原创 tableau初步上手

http://www.36dsj.com/archives/42081 这个文章说,Tableau的得分是,A:Automation方面 6分Tableau的拖拽功能将做图分析的功能有效的自动化了。但是在数据获取和处理方面,他对数据质量和格式要求都非常高。B : Big Data方面 8分Tableau支持Hadoop,Spark等等。相比很多只支持cloud的startup, Tab

2016-08-30 14:38:24 1633

原创 一个APP用户的活跃情况,和下期活跃预测的例子

一,做流失预测的用处:•1.管理流失,提升留存/活跃率:①精确了解客户流失情况②分析流失和活跃客户特征③预测可能流失客户④制定相对应的个别或整体运营策略---尤其针对“高价值又即将流失”的宝贵用户群⑤实施运营策略并评估实际成果⑥重复1-5●•2.不仅仅可以预测流失,未来还可以建立模型来预测我们关注的其他事件,•比如“哪些人最有可能看教练视频?”•“那

2016-08-28 18:32:54 4487

原创 汽车行业的互联网营销业务目前有哪些种类

从汽车厂商来说,常见的的有几种:1. 媒体监测类需求:主要为了营销运营,我应该和哪些媒体合作?汽车资讯类站点主要的十来个,我应该怎么组合和覆盖才是投资回报率最高的?比如,易车和爱卡汽车在某种档次的车方面是不是潜客重叠度很高?那么我就不用两边都投了。又比如,汽车资讯的很多频道,有汽车配置页面,口碑页面,论坛,商城,广告,页面的流转如何。来源上有没有什么特点?也是展示广告投放需

2016-08-28 18:16:40 1687

原创 简单统计、数据处理的几个常用命令:频率统计,和key匹配

最近常用的几个数据处理的小技巧:1. python的collections模块的Counter方法,和shell命令的sort uniq -c 做的是相同的事情,都是日常处理非常常见的,需要统计一个集合中各个元素的出现次数。比如:对于一个列表test_list=[1,2,2,3,3,3,4,4,4,4,5,5,5,5,5,2,2,3,3],test_dict=dict(Coun

2016-08-28 17:22:23 757

原创 Mac下使用excel统计的几个坑

excel在windows下确实是数据处理的利器,可是到Mac下确实不敢深用了,还是用Python处理好以后,在excel里面也就简单看看罢了。1. 不区分大小写。这个谁用谁知道,刚开始简直不敢相信,后来一搜发现大家都在问,怎么让excel的字符串匹配变成大小写敏感。。。。。包括过滤器,如果要过滤a,那么包括a和A的字符串都会出现。如果用vlookup,也是一样。。。 虽然,如果你

2016-08-28 17:15:47 6907

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除