学了个习-CSDN博客

原创折线图突出标识特定数据

折线图突出标识特定数据问题：在以日期为横轴，销售额为纵轴的日期折线图上标识出周末的销售金额，并以垂直阴影显示。解决方案：1.

2022-02-21 16:33:54 945

问题：本期销售额高于上期销售额，用绿灯显示，低于上期销售额，用红灯显示，相同时用黄色显示。解决方案：生成指示字符：红绿灯 =IF(HASONEVALUE(‘地区’[客户城市]),UNICHAR(9679))注： UNICHAR函数调用一个圆形字符，HASONEVALUE忽略总计行的影响。HASONEVALUE等价于COUNTROWS(VALUES([列名称])) = 1为字符配色：红绿灯配色 =SWITCH(TRUE(),[MTD]>[PMTD],"#2ECC40"

2022-02-21 16:32:32 640

原创各种时间指标的度量值

DAX函数：注：收入 = SUM(‘订单’[销售额])1. 本期：月初至今：MTD = CALCULATE([收入],DATESMTD(‘日期表’[日期]))季初至今：QTD = CALCULATE([收入],DATESQTD(‘日期表’[日期]))年初至今：YTD = CALCULATE([收入],DATESYTD(‘日期表’[日期]))2.上期：上月的月初至上月的今日：PMTD = CALCULATE([MTD],DATEADD(‘日期表’[日期],-1,MONTH))上

2022-02-21 16:31:54 1722 1

原创基于TF-IDF矩阵的新闻推荐及新闻数据分析

TF-IDF（Term Frequency-inverse Document Frequency）是一种针对关键词的统计分析方法，用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响，提高了关键词与文章之间的相关性。其中TF指的是某词在文章中出现的总次数，该指标通常会被归一化定义为TF=（某词在文档中出现的次数/文档的总词量），这样可以防止结果偏向过长的文档（同一个词语在长文档里通常会具有

2021-07-30 17:23:16 1514

原创租车服务系统数据分析

本文对租车服务系统里的用户基础数据进行数据分析。一、数据说明二、分析思路

2021-07-29 15:46:13 930

原创中国各高校数据分析

中国各高校数据分析一、爬取数据爬取的网站：中国教育在线对应的网址：https://gkcx.eol.cn/school/search打开网址，按F12打开开发者工具切换页数发现网址的参数page在发生变化，所以想获取某一页的数据集，首先需将url的page参数改为这一页的页数，找到对应的url；需遍历多少页才能获得整个数据集呢？页面数 = 总个数/每页的个数1. 获取总个数import jsonimport pandas as pdimport numpy as npimpo

2021-06-17 15:48:42 5223 4

原创用户分析

用户分析报告一.项目简介案例分析了来自CDNOW网站的一份用户购买CD明细，业务结合技术进一步分析用户的消费行为，提高决策质量。数据包括用户ID，购买日期，购买数量，购买金额四个字段目的：根据CD网站的用户购买明细，分析用户消费行为...

2021-01-12 16:17:41 1222 1

转载利用pyecharts绘制实时微博热点时间轮播图

利用pyrchart绘制实时微博热点时间轮播图1.获取数据import scheduleimport pandas as pdfrom datetime import datetimecount = 0def get_content(): global count url = 'https://s.weibo.com/top/summary?cate=realtimehot&sudaref=s.weibo.com&display=0&retcode=610

2020-12-28 16:59:40 929 1

转载 pyecharts交互式动态可视化案例_全国各省近20年GDP 动态展示

全国各省近20年GDP 动态展示1. 数据描述：数据存在EXCEL，命名为全国各省财政收入2. 编写代码：import pandas as pdimport openpyxlfrom pyecharts.globals import ThemeTypeimport pyecharts.options as optsfrom pyecharts.commons.utils import JsCodefrom pyecharts.charts import Timeline, Grid, B

2020-12-28 11:42:25 1951 8

转载手机销售数据分析

手机销售数据分析本文数据来源于网友从淘宝爬取的全网手机销售数据，包括cellphone.csv（淘宝网在售的手机商品信息），count_add_comments.csv（手机商品的评价信息），comments.csv（手机商品的具体评价）数据介绍查看数据详细信息import pandas as pdimport numpy as npimport timephone=pd.read_csv('cellphone.csv')add_comments=pd.read_csv('count_add

2020-11-16 16:06:20 10465 13

原创贝叶斯网络相关案例

贝叶斯推断：P(A)为先验概率，即B事件发生之前，我们对A事件概率的一个判断P(A|B)为后验概率，即在B事件发生之后，我们对A事件概率的重新评估贝叶斯推断的含义：先预估一个先验概率，然后加入实验结果，看这个实验到底是增强还是削弱了先验概率，由此得到更接近事实的后验概率。分词词向量模型（1） **One_hot representation:**每个文本（每句话）转化为1*n向量，但没有考虑到词矩，词频，纬度灾难（过拟合）（出现1.没出现0）（2） **Distribution repres

2020-11-13 16:54:36 2191

转载旅游项目分析

利用python爬取数据import requestsimport jsonprovinces=['广东','广西','湖南','湖北','山东','山西','陕西','江苏','浙江','安徽','江西','福建','台湾','河南','河北' ,'海南','甘肃','青海','贵州','四川','云南','内蒙古','宁夏','新疆','西藏','北京','天津','上海','重庆','香港','澳门']for province in provinces: for

2020-11-13 15:21:42 837 1

原创 A项目之七：利用pycharm布置网站

布置网站首先，找到合适的html模板包，将模板包里的文件复制进pycharm里面，本文把asset文件夹复制在static目录下，把需要用到的html模板复制到templates目录下。搭建Flask框架from flask import Flask,render_templateimport pymysqlfrom sqlalchemy import create_engineapp = Flask(__name__)# 第一个网页@app.route('/')def test():

2020-08-21 22:50:43 1617

原创 A项目之五：关于标题文本的分析

绘制词云准备相关库import jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloudfrom PIL import Image # 图片处理import numpy as npimport pymysqlfrom sqlalchemy import create_engine准备准备词云所需的文字con = create_engine('mysql+pymysql://root:1356130369@l

2020-08-21 22:45:46 365

原创用k-MEANS进行图片压缩

用k-MEANS进行图片压缩算法步骤：1.先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心2.分别计算剩下的元素到k个子集中心的距离，将这些元素分别划归到最近的子集3.根据聚类结果，重新计算中心（子集中所有元素各个维度的算数平均数）4.将集合A中全部元素按照新的中心然后再重新聚类重复以上步骤，直到聚类的结果不再发生变化k值的选择SSE（累积均方误差）为纵轴，K为横轴，画出曲线，选取拐点对应的k值为类别数压缩图片该图片分辨率为512 * 512，三通道为r,g,b(三原色），

2020-08-21 20:43:56 555

原创 A项目之六：关于地区的分析

商家分布详情先利用python 处理数据，将处理后的数据写进数据库import pandas as pdimport pymysqlfrom sqlalchemy import create_enginedata=pd.read_excel('./处理后的口红.xlsx') # 爬取下来后数据清洗，然后储存在EXCEL的数据areas=data[['商家地址','付款人数']].groupby('商家地址').count().reset_index()# 建立连接，username替换为用

2020-08-21 14:14:46 202

原创 A项目之四：价格与销量的关系分析

价格分组图利用python先对数据进行处理，再讲处理后的数据集写进数据库import pandas as pdimport numpy as npimport pymysqlfrom sqlalchemy import create_enginedata=pd.read_excel("./处理后的口红.xlsx")# 价格分组并转换为字符型datasales=list(pd.qcut(data['售价'],12).values)newsales=[]for i in datasa

2020-08-21 14:13:56 3984

原创 A项目之三：价格与销量分布直方图

价格分布直方图先搭建Flask框架，让图形能够在网页呈现出来：from flask import Flask,render_templateapp = Flask(__name__)@app.route('/价格分布图')def sales(): sales = [] number = [] con = create_engine('mysql+pymysql://root:1356130369@localhost:3306/test', encoding='utf8')

2020-08-21 14:12:06 1223

原创 A项目之二：python导入数据库

利用python清洗爬取下来的口红商品信息数据

2020-08-21 14:11:02 483

原创 A项目之一：selenium爬取某宝数据

利用selenium库模拟获取淘宝商品信息的操作导入必要的库from selenium import webdriverimport timeimport re模拟进入淘宝页面driver=webdriver.Chrome() # 这里选用chrome浏览器driver.get('http:\\www.taobao.com')搜索商品，获取商品目录的页码数def search(): driver.find_element_by_id('q').send_keys('口红') #

2020-08-21 14:09:47 265

weixin_43400973的博客