CC_Cynthia-CSDN博客

原创用户行为路径数据埋点方案设计案例

用户行为路径数据埋点方案设计案例案例背景业务需要对用户行为进行数据分析，现缺失这部分数据，需要设计采集方案获取数据满足业务分析需求。定义数据采集方案是为埋点所设计的采集方案。所谓埋点就是在产品（通常是网页、app）中需要提取数据的地方（如某功能按钮处）增设代码以回传检测到的数据值的行为。以常见的运营场景为例，为监控网站用户使用某一功能的情况，可以在功能点击按钮处埋点，当用户点击按钮时回传数据信息（如点击时间，点击功能按钮的页面等等）。数据埋点这一过程通常需要产品、数据、技术三个部门协作进行。那

2021-08-02 11:40:54 1836

原创 AHP权重计算方法案例

AHP权重计算方法案例1.案例背景公司要对网站用户行为进行追踪，以优化推荐系统算法，需要对已有的5项行为指标（为便于理解，此处展示5项）分配对应权重，需要我们数据部门给出权重建议。当然不能拍脑门……我以AHP层次分析法为理论基础设计了一套权重计算方案2.理论背景AHP层次分析法，简言之，利用数字大小相对性，数字越大越重要，权重越高，计算每个因素的重要性。AHP源于上世纪70年代初美国国防部研究课题时，提出的一种层次权重决策分析方法。AHP是一种解决多目标的复杂问题的定性与定量相结合的权重判断方法

2021-06-15 09:33:49 9025

原创 Excel 标记重复多余项

这里有一列数据，需要将重复项筛选出来。在开始菜单的条件格式中，选择重复值

2020-05-25 12:01:13 1705

原创 Excel 空值填充

第一步，选择空值原始数据如下：选择需要替换空白的数据列：使用CTRL+G调出定位界面，选择定位条件中的空值。第二步空值条件填充直接填充为某值这里选择填充数字1111第三步按住CTRL+ENTER 全部输入空值填充为上一行单元格内容以上为基本步骤，除了这个之外。我们还可以将单元格填充为上一行的数据，在选中空值单元格之后，在空值中输入“=“，然后按向上箭头，选中”上...

2020-04-28 14:51:08 6469

原创 Excel 日期格式的转化

时间格式的转化很多时候会遇到日期格式不统一，可以采用Excel的分列功能。日期处理前如下，日期为含有【’】单引号的常规格式数据。通过分列去除单引号。最后选择完成...

2020-04-27 17:18:33 386

原创 Excel Video Game Sales视频游戏销售分析

本文使用Excel对1.6万Vgchartz游戏销售数据进行分析。数据分析工具：Excel & Power Query。一、提出问题1、分析目的本文期待通过挖掘电子游戏销售数据价值，研究xxx等情况，对提升电商关键业务指标提出建议。具体讨论问题如下：哪些游戏平台和游戏出版商实力更强？什么游戏类型是更受人们喜爱的？在不同地区游戏的销售概况是如何的？2、分析框架二、数据准备1...

2020-03-23 17:23:40 1745

原创 SQL分析阿里云淘宝电商数据

一、数据准备1、数据来源数据源自阿里云天池数据库——User Behavior Data from Taobao for Recommendation2、数据描述数据集包含了2017年11月25日至2017年12月3日之间，有行为的约一百万随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的组织形式和MovieLens-20M类似，即数据集的每一行表示一条用户行为，由用户ID、...

2020-03-20 19:34:26 1711

原创 beautifulsoup+requests链家（深圳）爬取及可视化分析

链家比起boss和拉勾更好爬这次使用beautifulsoup+requests爬取链家深圳的租房信息，并进行简单的可视化分析。爬取代码如下：import requestsfrom bs4 import BeautifulSoupimport csvheaders={ 'Accept': 'xxx', 'User-Agent':'xxx'}price_list=[]...

2020-03-17 16:19:13 1084 2

原创 excel+power query进行文本数据拆分和提取

之前展示过使用python对文本数据的拆分和清洗导入csv文件打开一个空白的excel文件，导入数据。进入power query界面设置第一行为列名使用追加查询合并拉勾和boss网数据。删除不需要的列...

2020-03-04 21:41:02 4788

原创登录爬取拉勾网2.0 Python selenium

后续再重爬拉勾网，发现了很多原贴Python selenium+beautifulsoup 登录爬取拉勾网的代码问题，本文对代码进行了改进：由于beautifulsoup存在定位不准确，解析重复的问题，所以此版本不再使用；增加了防selenium识别设置，可以参考代码option部分，或者见我的帖子python selenium被反爬系统识别的问题；使用1个for循环进行多个列表元素遍历，...

2020-03-03 10:20:26 602

原创 python 多元素多列表循环实例

我创建了4个列表。list_name=['杜飞','岳飞','武则天','如萍']list_sex=['男','男','女','女']list_age=['23','33','40','22']list_job=['记者','将军','皇帝','护士']如果我们想实现以下结果。可以只用一个for循环，注意一定要使用zip函数（原因见参考贴子）。for (name,sex, age...

2020-03-01 22:57:19 867

原创 SQLServer导入csv文件详细步骤及报错问题的解决办法

如题，本帖主要详述SQLServer导入csv的步骤，以及遇到报错问题。正在执行 (错误)消息• 错误 0xc02020a1: 数据流任务 1: 数据转换失败。列“列 1”的数据转换返回状态值 4 和状态文本“文本被截断，或者一个或多个字符在目标代码页中没有匹配项。”。(SQL Server 导入和导出向导)• 错误 0xc020902a: 数据流任务 1: “输出列“列 1”(14...

2020-02-28 15:50:13 11936 3

原创 pandas中文本数据的拆分和提取

此文主要分享文本数据的拆分，提取合并，为下一步可视化分析做好准备。数据来源于boss与拉勾网数据分析岗位的招聘信息。拉勾网的爬取方法见此文：《Python selenium+beautifulsoup 登录爬取拉勾网》环境配置# Jupyter Notebook%matplotlib inlineimport pandas as pdimport warningsw...

2020-02-25 11:38:13 13028

原创 Python jieba+wordcloud制作词云

对于大片文本数据的可视化可以使用词云，既直观又酷炫。步骤主要为：1.准备好数据文本，最好是字符串。但绝大可能是列表，此时需要使用【text=’ '.join(list)】这样的方法变成字符串；2.使用jieba进行分词，用法可参考：https://blog.csdn.net/reims2046/article/details/728693373.将jieba返回的内容传入wordclo...

2020-02-24 17:41:35 1229 1

原创 Python csv存储时报错'gbk' code can't encode character 'xxx' in position 'xx'

在爬取完数据，存为csv时出现报错：‘gbk’ code can’t encode character ‘xxx’网上很多帖子都是说把编码方式由【gbk】改为【utf-8】，就能解决问题。即：csv_file=open('eg.csv','w',newline='',encoding='utf-8')但是我如果使用【utf-8】得到的数据是乱码。最后使用【try…except】跳过解决...

2020-02-24 14:40:21 653

原创 csv存储时，列表转置问题

当有多个列表【x_list，y_list，z_list】，列表内容期待存储为csv文件的列，需要进行列表转置。因为csv的存储数据的特点是将列表内的各个元素存为一行多列的形式。为实现上述目的，就需要使用zip( )函数转置，再使用for循环写入。上代码：rows =zip(x_list,y_list,z_list)csv_file=open('save_list.csv','w',new...

2020-02-24 12:30:31 906 2

原创 selenium 使用键盘按键方法

调用键盘按键需要引用keys包这里就以【回车键】为例：from selenium import webdriverfrom selenium.webdriver.common.keys import Keyssearch=driver.find_element_by_xpath('//input[@name="query"]')search.send_keys('CC_Cynthia的博...

2020-02-16 16:18:20 1615

原创 selenium提取数据的方法总结

总结下selenium提取数据的几种方法：通过元素标签名提取driver.find_element_by_tag_name()通过元素class属性driver.find_element_by_class_name()通过元素id属性driver.find_element_by_id()通过元素name属性driver.find_element_by_name()通过链接文本获取...

2020-02-16 15:51:45 5161 1

原创 python selenium被反爬系统识别的问题

在使用selenium这个压箱底的反爬技能爬取boss时，踢到了铁板。selenium也能被反爬系统识别出来，无法打开链接。原因在于slenium打开网页时，Chrome会显示这个标签条，使得服务器识别为爬虫。解决办法就是设置options，隐藏标签：代码如下：from selenium import webdriverfrom selenium.webdriver import C...

2020-02-16 12:03:10 3247 10

原创 Python selenium+beautifulsoup 登录爬取拉勾网

声明在前：我的代码和文章仅做学习研究分享，如需转载请注明作者（笨小孩）和出处https://blog.csdn.net/CC_Cynthia转载请知会作者；此文仅供非商业用途，谢谢。————————————————拉勾反爬很厉害，先测试下，看使用request看能否解析。乱码，之后试了一些方法还是不行，防爬系统太严密，所以我决定使用终极杀器selenium。selenium在Jup...

2020-02-14 17:19:09 1090 2

原创 Scikit-learn调取数据包时遇到的问题

在点亮了Eexel，SQL，Python，统计学知识，数据分析逻辑等等技能之后，我这几天正准备摩拳擦掌地做几个kaggle项目，增加简历的含金量。结果在做泰坦尼克预测时卡住了。看了很多前辈的帖子和视频之后才发现——原来还需要机器算法的知识。于是笨小孩又开始了漫长的机器算法学习之路。在机器学习中，Scikit-learn（sklearn）是绝对会遇到的，这个模块非常友好的自带了很多dataset...

2020-02-12 21:31:17 344 1

原创 kaggle 泰坦尼克项目实战（详细代码分享）——集成学习Soft voting

顺利注册完kaggle之后，我们终于可以开始上手撸项目啦！我们就先从大名鼎鼎的泰坦尼克号开始！尽管网上有很多大神进行了“入门级别”的代码分享讲解，但我看了一轮下来，自惭形秽，深深觉得我还不配称为入门级别的选手，我只是个小白……所以这篇文章还有个副标题是“小白级别“的代码分享o(*≧▽≦)ツ。声明在前：我的代码有参考某些大神的帖子，在文末会贴上作者及链接；我的代码和文章仅做学习研究分享，如...

2020-02-12 17:22:03 3635 8

笨小孩的数据分析之路