![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析与挖掘
文章平均质量分 66
cynthia_file
缓慢而坚定地做自己能做的事
展开
-
开发转数据分析,小白的学习之路
浅谈现状我为什么向转行数分如何做规划为什么报课以及拉勾课程的设置对我的吸引最后为什么报课拉勾的课程设置笔记链接分析思维问题分析思路电商分析MySQL基础查询常用函数窗口函数及聚合函数实际应用(留存及连续打卡问题)Tableau…待续...原创 2021-01-09 20:47:00 · 916 阅读 · 0 评论 -
数据分析思维
问题分析思路原创 2021-01-10 22:35:55 · 190 阅读 · 0 评论 -
学习笔记--推荐系统概述
推荐系统做什么?从用户和用户 的显性/隐形行为中 找到隐藏的连接从而找到用户和物品直接的连接分类评分预测:预测用户会打高分的物品原理:评分机制,尽量减小预测分数 与 实际分数的误差【回归问题】-(均方根误差)-()优点:计算简单,原理易理解缺点:显性反馈收集信息-数据收集不易-数据质量难以保证,用户主观性和捣乱成分村存在-分布不稳定,因用户个体和时期 结果会有差异性行为预测:预测用户某个行为的发生概率&对物品进行相对排序原理:-类似于二分类的问题(对一种.原创 2023-03-09 18:01:45 · 39 阅读 · 0 评论 -
用户画像之建立
目的:将文本等非结构化内容 转化为 结构化内容存储,待将来使用用户画像所有非结构化的文本结构化,去粗取精,保留关键信息NLP 算法,eg…关键词提取:TF-IDF 和 TextRank。实体识别(序列标注问题):人物、位置和地点、著作、影视剧、历史事件和热点事件等,常用:基于词典的方法结合 CRF 模型、隐马尔科夫模型(HMM)内容分类:文本分类(指定分类),用分类来表达较粗粒度的结构化信息。SVM、FastText聚类 :在无人制定分类体系的前提下,无监督地将文本划分成多个类簇(聚类)原创 2023-03-09 17:57:44 · 46 阅读 · 0 评论 -
boss爬虫(scrapy+selenium)
由于boss的反爬虫策略,我又没有使用ip代理,所以爬的比较慢环境:pyCharm+jupyter notebookfrom scrapy import signalsfrom selenium import webdriverimport timeimport scrapyfrom scrapy.http.response.html import HtmlResponsefrom selenium.webdriver.common.action_chains import ActionCha原创 2020-11-10 15:01:19 · 972 阅读 · 0 评论 -
词云
数据来源:爬虫boss详见,https://editor.csdn.net/md/?articleId=109598995#获取数据import pandas as pddf_b = pd.read_csv(r'beijingDataAnaly.csv')df_b.info()df_s = pd.read_csv(r'shanghaiDataAnaly.csv')df_s.info()df = df_b.append(df_s)df = df.drop_duplicates().fillna原创 2020-11-10 16:02:35 · 283 阅读 · 0 评论