mx丶姜小辉-CSDN博客

原创广电大数据用户画像及营销推荐策略（四）——Python实现

本次大数据项目数据及分析均做脱敏化和保密化，主要分享思路体系，全程用Python实现，数据和代码均不提供。如有建议欢迎讨论！

2022-06-29 15:40:17 3555 3

原创广电大数据用户画像及营销推荐策略（三）——Python实现

本次大数据项目数据及分析均做脱敏化和保密化，主要分享思路体系，全程用Python实现，数据和代码均不提供。如有建议欢迎讨论！3、特征工程特征工程大体上可以分为三个方面，一是特征构造，二是特征选择或特征提取，三是特征变换。特征构造比较麻烦，需要一定的经验。特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征；而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数....

2021-11-10 16:37:54 6533 2

原创广电大数据用户画像及营销推荐策略（二）——Python实现

本次大数据项目数据及分析均做脱敏化和保密化，主要分享思路体系，全程用Python实现，数据和代码均不提供。如有建议欢迎讨论！2、数据准备由于数据中用户收视行为信息数据记录很大，如果对数据不进行分类处理，对所有记录直接采用推荐系统进行推荐，这样会存在以下问题。第一，数据量太大意味着物品数与用户数很多，在模型构建用户与物品的稀疏矩阵时，出现设备内存空间不够的情况，并且模型计算消耗大量的时间。第二，用户区别很大，不同的用户关注信息不一样，因此即使能够得到推荐结果，其推荐效果也会不好。为了避免...

2021-02-20 11:49:08 4796

原创广电大数据用户画像及营销推荐策略（一）——Python实现

本次大数据项目数据及分析均做脱敏化和保密化，主要分享思路体系，全程用Python实现，数据和代码均不提供。如有建议欢迎讨论！前言 “一切业务数据化，一切数据业务化”，回顾几十年的中国企业信息化发展历程，就是“业务数据化”的过程——企业持续在IT方面进行投入和建设，不断将发展过程中业务和经营管理端的各种能力以数据形态沉淀下来。而接下来的“数据业务化”则是将已经成为资产的数据作为生产资料数据中台作为整个企业各个业务所需数据服务的提供方，通过自身的平台能力和业务对数据的不断滋...

2021-02-19 17:43:43 5322 1

原创 2019年用户流失分析（五）——Python实现

5、模型应用选择4月份为正常状态的电视用户，计算他们的收视时长、收视在线天数、距最近一次收视时间、入网时长、用户主动办理次数和投诉与报障次数6个特征指标，利用构建好的用户流失模型预测5月份的用户流失情况。5.1 离网倾向阈值在4月份为正常状态的电视用户数为98201。5月份真实流失的电视用户数为1391，流失率为1.40%。此时通过构建好的预测模型预测之后...

2019-11-19 09:33:12 1028 1

原创 2019年用户流失分析（四）——Python实现

（3）、随机森林模型随机森林属于一种集成算法，指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林的混淆矩阵如表格 6所示。表格 6 混淆矩阵表 predictedclass 类=0 类=1 actualclass 类=0 545（T...

2019-10-16 17:27:02 1371 1

原创 2019年用户流失分析（三）——Python实现

（2）、决策树分类算法模型数据划分在分类算法建模过程中与聚类算法稍有不同。聚类指事先并不知道任何样本的类别标号，实现的目标是通过某种算法来把一组未知类别的样本划分成若干类别，把相似的东西聚到一起，在机器学习中被称作无监督学习，这时不需要数据划分。而在分类算法中，根据已知的一些样本（包括属性与类标号）来得到分类模型（即得到样本属性与类标号之间的函数），然后通过此目标函数来对只包...

2019-09-12 09:26:15 2672 1

原创 2019年用户流失分析（二）——Python实现

3.3 工单情况分析（舆情分析） 13241个用户一年内的工单数为8480条，里面有用户投诉与报障的具体内容信息。我们可以对投诉与报障内容进行情感分析，利用LDA主题模型提取内容关键信息，了解用户的需求、意见，提出改善的建议。有价值的内容信息数据需要通过中文分词、停用词处理、语义歧义处理、情感打分、情感修正等等一系列的文本处理。（本次使用的情感词表是2007年10...

2019-08-09 11:15:37 1619

原创 2019年用户流失分析（一）——Python实现

在用户流失调研中，以往的用户流失标准定义为用户没有再进行续费的时候（即使催缴信息通知后），而现实中用户未必是消费殆尽时才流失，而是已经不再活跃的时候就已经流失了，这样的初始标准延迟了我们对流失用户进行干预的时间。所以，流失用户的标准应该定义为在一段时间内未进行收视、业务办理等行为的用户。1、数据选取本次分析的对象是2019年3月份用户状态变为欠费停机、主动停机、...

2019-07-19 11:21:52 2516 2

原创 Xshell连接时显示“服务器发送了一个意外的数据包。received:3,expected:20“问题的解决方法

wen最近在大数据服务器上安装了openbsd6.7版本，安装完后通过xshell连接，弹出一个错误对话框，提示“服务器发送了一个意外的数据包。received:3,expected:20”的错误信息。检查sshd服务是正常开启的，防火墙也没阻止，可能是sshd可能与xshell存在兼容性问题。因为我在其他unix系统下通过ssh是可以正常连上的。但是在堡垒机上，是可以登录连接的，但是打开xftp会提示“服务器发送了断开连接数据包。[USM] 'sftp' userauth failed, pl

2021-06-02 10:56:32 17834 4

原创 Python连接hive数据库小结

前言做大数据分析及应用过程中，时常需要面对海量的数据存储及计算，传统的服务器已经很难再满足一些运算需求，基于hadoop/spark的大数据处理平台得到广泛的应用。本文介绍用python读取hive数据库的方式，其中还是存在一些坑，这里我也把自己遇到的进行分享交流。基本情况集团有20台服务器（其中1台采集主节点，1台大数据监控平台，1台资源监控）...

2020-08-27 17:01:20 15694 4

原创 Linux系统下安装Python爬虫环境+模拟浏览器插件

一、服务器版本 Centos7以上版本二、配置python环境1、安装依赖包yum -y install gcc gcc-c++yum -y install zlib zlib-develyum -y install bzip2 bzip2-develyum -y install ncurses ncurses-develyum -y install read...

2019-12-13 17:15:05 2357

原创循环进度可视化tqdm

Python的tqdm库是循环进度条可视化，可以在 Python 循环中添加一个进度提示信息，用户只需要封装任意的迭代器 tqdm(iterator)。这里我们分3个部分展示：介绍，使用，实例。安装用pip即可。1、介绍首先先来看一下如何创建循环进度条可视化。import time,tqdmfor i in tqdm.tqdm(ran...

2019-07-31 11:52:41 2349

原创 debug调试神器pysnooper

异常bug定位，print()函数也可以，但效率上还是慢，后来发现了一个叫PySnooper的装饰器。一般debug调试，都是在我们可能觉得会有问题的地方，去打印输出，看下实际输出了什么，然后思考问题所在。下载库：pip installpysnooper 但是pysnooper很方便，运行代码就会输出对应函数的执行数据，并且函数每一步的输出都保存为deb...

2019-07-31 09:59:56 280

原创 Python机器学习库scikit-learn使用小结（二）

scikit-learn库（后三小结）在做数据分析和挖掘的过程中，数据的处理（标准化）、划分、快速建模都是必不可少的方式。这里本人总结了一些scikit-learn（以下简称sklearn）库的使用方法小结，当然也本人在工作中时常需要用到的一些。（方法在精不在多，这里不是sklearn所以的总结） sklearn库整合了多种机器学习算法，能够在数据分析过程中快速建...

2019-07-30 17:50:18 1894

原创 Python机器学习库scikit-learn使用小结（一）

scikit-learn库（前两小结）在做数据分析和挖掘的过程中，数据的处理（标准化）、划分、快速建模都是必不可少的方式。这里本人总结了一些scikit-learn（以下简称sklearn）库的使用方法小结，当然也本人在工作中时常需要用到的一些。（方法在精不在多，这里不是sklearn所以的总结） sklearn库整合了多种机器学习算法，能够在数据分析过程中快速建...

2019-07-30 17:17:55 1441

原创 SQL server、oracle、hive三种数据库的时间类型操作

下面是SQL server、oracle、hive三种数据库的时间类型操作。一、时间类型操作（sql server）1、Sql Server中的日期与时间函数当前系统日期、时间select getdate()dateadd 在向指定日期加上一段时间的基础上，返回新的datetime值。Es：在日期加上2天select dateadd(day,2, '2004-10...

2019-06-25 12:47:01 2378

原创数据标准化常见问题：对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别（Python实现）

在数据分析与挖掘、算法建模的都会用到数据标准化。数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。但是经常会遇到一个问题：方式一：先对整个数据集数据标准化后再划分训练集、测试集...

2019-05-27 10:15:56 23085 19

原创 Python连接多种数据库的方式

本次主要介绍3种数据库（MySQL、PostgreSQL、oracle）如何用Python连接。一、MySQL MySQL这里介绍三种Python的库来连接，分别是sqlalchemy、MySQLdb、PyMySQL。1、sqlalchemy sqlalchemy是python中著名的orm框架，通过这个框架可以不用关心sql语句，就能操作数据...

2019-05-20 10:16:06 14309 1

原创用户复通率（用户回访率）

本人最近在做广电行业的用户流失分析，在提取数据时遇到一个问题：需要提取多久时间之内的用户相关数据做分析呢？在本公司内系统已经有相关的离网、入网、复通等等行为的用户数量。现在需要定下时间阈值，并有数据支持，下面看当时我的处理方式（由于私密问题数据不会显示出来）。流失用户应该是在一段时间内未进行关键操作行为的用户。此时定位本次用户流失分析的两个标准：选择关键行为...

2019-05-17 17:26:21 4172

原创使用cmd命令添加path环境变量

使用cmd命令添加path环境变量在cmd下输入：path=%path%;D:/Anaconda 接着按"Enter"回车键。其中:D:/Anaconda是Python的安装目录。...

2019-04-28 11:33:20 13666

原创 Python数据挖掘库的思维导图

Python作为现在最为流行的编程语言之一，主要是因为它除了有优雅、明确、简单的特点之外，还有非常强大的第三方库。这里主要是对数据挖掘方向的相关库进行了总结整理。包括科学计算库、数据处理库、机器学习库、绘图库、深度学习库的大纲整理。如果有什么补充，欢迎讨论留言~文章未经博主同意，禁止转载！...

2019-04-08 17:30:02 744

原创 R语言和Python实现分数次幂微积分计算（主要是Python）

分数次幂微积分计算引例首先，网上目前有很多微积分的实现。例如下面2个以Python示例的微积分计算。示例1：from sympy import *x = Symbol('x')y = integrate(x*2,(x,-1,1))示例2：from sympy import *t = Symbol('t')x = Symbol('x')m = integ...

2019-04-04 17:39:35 3179 2

原创 Python决策树可视化：GraphViz‘s executables not found的解决方法

本人在运用Python中决策树算法解决电力窃漏电用户识别分析时，遇到Python决策树可视化的问题。如下是建立决策树模型时的脚本：from sklearn.tree import DecisionTreeClassifier,export_graphvizfrom sklearn.model_selection import train_test_split...

2019-03-16 12:08:12 42404 31

原创 Python配置TensorFlow-GPU环境（笔记II）-2019.03.04

由于之前电脑问题导致系统重装，需要重新安装了GPU版的TensorFlow来跑人脸识别的代码，发现安装过程中与上一次笔记的不同了（有了新的版本匹配），这次是新的配置说明。系统：Windows10GPU：NVIDIA GeForce GTX 1050 TiPython：Anaconda3-5.0.0-Windows-x86_64，在win上安装py3.6版本。Tenso...

2019-03-04 11:40:15 1444

原创 Python编辑器之jupyter使用介绍（拓展插件使用手册）

一、jupyter拓展工具 Jupyter Notebook 是一个很棒的教学、探索和编程环境，但其功能不足也是出了名的。幸好，有许多方法可以改进这个不错的工具，如 Jupyter Notebook 扩展工具。 Jupyter Notebook 扩展插件是扩展 notebook 环境基本功能的简单插件。它们用 JavaScript 语言编写，会自动套用代码格式或者在...

2019-02-21 13:48:37 4735

原创 Python编辑器之jupyter使用介绍（快捷功能、设置工作路径）

一、Jupyter Notebook 快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。（1）命令模式 (按键 Esc 开启)Shift-Enter : 运行本单元，选中下个单元 Ctrl-Enter : 运行本单元 Alt-Enter : ...

2019-02-21 11:52:36 983

原创 Python编辑器之jupyter使用介绍（基本功能）

一、熟悉Python数据分析的工具1、了解数据分析常用工具目前主流的数据分析语言有Python、R、Matlab三种程序语言。其中Python具有丰富和强大的库。它常被昵称为胶水语言，能够把用其他语言制作的各种模块（尤其是C／C++）很轻松地联结在一起，是一门更易学，更严谨的程序设计语言。R语言则是用于统计分析，绘图的语言和操作环境，它是属于GNU系统的一个自由、免费、源代码...

2019-02-21 11:44:04 36354

原创 Python3爬虫知识（问题）汇总（一）

Python：python3以下是本人在爬虫项目中遇到并积累的问题与知识点：一、获取国内髙匿代理IP网站的免费IP代理,并验证哪些IP为可用代理,最后将可用代理输出。首先需要爬取到代理IP的协议、ip地址、端口，本人采用了两种形式的获取：一个是常见的bs4库的BeautifulSoup与requests库，另一个是模拟浏览器selenium库。1、PhantomJS...

2018-12-19 12:31:42 485

原创配置虚拟机

配置虚拟机步骤1、下载搭建好的虚拟机解压后将node200文件中的“node200.vmx.lck”改为“node200.vmx.lck.bak”（node200、node201、node202、node203），否则在后续用VMware打开虚拟机时找不到符合格式的文件。2、下载VMware典型版后打开VMware—编辑—虚拟网络编辑器；...

2018-12-04 17:31:02 478

原创 Python配置TensorFlow-GPU环境（笔记I）-2018-10-25

系统：Windows10Python：Anaconda3-5.0.0-Windows-x86_64主要步骤：1、环境配置打开Anaconda Prompt，输入清华仓库镜像，这样更新会快一些。同样在 Anaconda Prompt 中利用Anaconda创建一个Python3.5的环境，环境名称为tensorflow。注意：tf...

2018-10-25 15:51:38 1595

原创 R语言gg3D包绘制3D图形

本次分享一个绘图还不错的包——gg3D，2018年1月公布。一、安装包 gg3D包目前（写该文章时）在R语言官方网站还不能找到并下载，但可以通过开源的托管平台gitHub下载。运行如下代码:install.packages('devtools')devtools::install_github("AckerDWM/gg3D") 下载好gg3D包后，...

2018-09-04 16:21:26 21067 2

原创 Python常用的几种去重方式

由于Python的去重方式比较多，本人在项目中总结了几种常用方法，欢迎补充。一、对列表去重1.用循环查找的方式li = [1,2,3,3,4,2,3,4,5,6,1]news_li = []for i in li: if i not in news_li: news_li.append(i)print (news_li)2.用集合的特...

2018-08-24 16:53:33 33433 4

原创项目总结之用户画像构造

一、建立标签库给用户贴标签是大数据营销中常用的做法，所谓“标签”，就是浓缩精炼的、带有特定含义的一系列词语，用于描述真实的用户自身带有的属性特征，方便企业做数据的统计分析。借助用户标签，企业可实现差异化推荐、精细化画像等精准营销工作。标签库的建立方式主要有如下三点。标签库建立的过程中，是以树状结构的形式向外辐射，尽量遵循MECE原则：标签之间相互独立、完全穷...

2018-08-23 10:24:57 2792

原创雷达图的实现（R语言及Python）

雷达图的目的雷达图在数据挖掘项目中多用于企业分析或者价值分析的环节可视化。雷达图分析法是一种系统分析的有效方法，它是从项目中自身建立的多方面分析企业的经营成果。并将这些方面的有关数据用比率表示出来，填写到一张能表示各自比率关系的等比例图形上，再用彩笔连接各自比率的结点后，恰似一张雷达图表。从图上可以看出企业经营状况的全貌，一目了然地找出了企业经营上的优势和弱势。注意事项 ...

2018-07-11 17:59:43 18052 3

原创交通事故致因分析

1、挖掘背景随着时代的发展，我们的出行变的越来越便利的同时，也带来的越发严重的交通安全事故。我国的经济高速发展，全国汽车保有量，交通道路，人口等都在不断的增加，同时道路交通安全事故也进入高发期。分析事故发生的原因，找到事故发生的内在规律，对交通部门进行道路交通的改进和提高民众的出行安全具有重大意义。本次提供了交通事故相关的多维度数据，通过对事故类型、事故人员、事...

2018-07-10 14:26:55 9779 12

原创几种不同的方式用Python连接数据库

1、连接MySQL的方式# 在cmd中（提前设置环境变量） pip install pymysqlimport pymysql as pmcon = pm.connect('localhost','root','123456','tip',charset='gbk')data = pd.read_sql('select * from all_gzdata',con=con)con.c...

2018-05-28 17:41:10 1505

原创 Python面向对象编程（五）

一、继承父类属性和方法1. 继承面向对象的编程带来的好处之一是代码的重用，实现这种重用方法之一是通过继承机制。继承（Inheritance）是两个类或多个类之间的父子关系，子类继承了父类的所有公有数据属性和方法，并且可以通过编写子类的代码扩充子类的功能。想象一下，如果人类可以做到子女继承父母的所有才学并加以扩展，那么人类的发展至少是现在的数万倍。继承实现了数据属性和方法的重用...

2018-05-16 17:54:03 1038

原创 Python面向对象编程（四）

一、生成迭代器迭代是Python最强大的功能之一，是访问集合元素的一种方式。之前接触到的Python容器对象都可以用for遍历。>>>for element in [1,2,3]:... print(element)>>>for element in (1,2,3):... print(element)>>&g...

2018-04-26 10:41:00 474

原创 Python中pip下载的相关问题

一、pip下载安装包方法一：百度搜索：Python whl选择网址：https://www.lfd.uci.edu/~gohlke/pythonlibs/选择：wordcloud下载所需版本在Windows powerShell中输入：(修改路径：cd E:\)pip install wordcloud-1.3.2-cp36-cp36m-win_amd64.whl注：whl是压...

2018-04-11 15:44:50 421

空空如也

空空如也