自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

越努力越幸运

记录点滴

  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据分析--对“数据分析”相关岗位的综合分析

对“数据分析”相关岗位的综合分析数据来源:拉勾网(爬虫)关键字:数据分析样本量:1631条截至日期:2019-07-15目的“数据分析”职位在各城市招聘数量分布总体薪资以及应届生薪资分布工作经验对于薪资的影响相同工作经验下,学历对薪资的影响北京本科应届生及不限经验的平均工资统计应聘者需要掌握哪些技能import pandas as pdimport numpy a...

2019-07-17 22:35:43 2370

原创 问题--Django2.2 解码错误UnicodeDecodeError

在使用Django2.2的时候,可能会遇到以下错误解决办法在路径site-packages/django/views下的debug.py文件在331行,将with Path(CURRENT_DIR, 'templates', 'technical_500.html').open() as fh改为with Path(CURRENT_DIR, 'templates', 'technical_500.html').open(encoding="utf-8") as fh...

2020-05-09 12:21:32 322

原创 问题--UEditor使用中文乱码

用Django加载UEditor时候,遇到工具栏出现乱码的情况,在HTML中引用官方包中的中文字体文件,即可解决<script type="text/javascript" src="{% static 'utils/ueditor/ueditor.config.js' %}"></script><script type="text/javascript" s...

2020-04-14 09:30:26 6144 2

原创 问题--flask创建时间、更新时间不自动更新

开始是这样写的create_time = db.Column(db.DateTime, default=datetime.now())update_time = db.Column(db.DateTime, default=datetime.now(), onupdate=datetime.now())字段不会随着时间更新,一直为相同数值找了好多地方,发现是括号的坑,now是随着时间更...

2020-01-09 00:41:16 996

原创 问题--Windows用PowerShell运行Virtualenv时报错

管理员运行PowerShell输入Set-ExecutionPolicy RemoteSigned输入Y然后输入环境路径.\activate就可以运行了

2019-12-21 13:58:26 287

原创 问题--用pip安装包慢,解决方法

学习词袋模型时,用pip install gensim安装包报错,换个源就好啦,在Anaconda Prompt里面输入命令pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim

2019-11-28 23:48:19 609

原创 爬虫--有道web端接口js解密

# -*- coding:utf-8 -*-# Author:Hai.Tangimport requestsimport randomimport timeimport hashlibimport jsonclass YouDao(object): def __init__(self, searchStr): self.url = "http://fanyi...

2019-08-31 16:04:54 324

原创 数据分析--常用数据分析指标

网站分析指标UV、PV、点击率、转化率、网页停留时间、网站停留时间、跳出率、退出率渠道分析指标‘新增用户数、用户转化率、渠道ROI、渠道流量、渠道流量占比活动效果指标活动点击率、活动参与人数、活动转化率、活动ROI收入指标付费人数、转化率、订单数、客单价、GMV、复购频次、毛利率、毛利额用户类型指标新增用户、活跃用户、留存用户、回流用户、流失用户用户价值指标...

2019-08-10 11:45:43 946

原创 Python--Pandas相关操作

内容概要创建SeriesSeries基本操作创建DataFrameDataFrame基本操作DataFrame字符串操作DataFrame缺失值操作DataFrame文件操作时间序列索引Series 多重索引DataFrame多重索引透视表绝对类型数据清洗数据预处理Pandas绘图操作【基础部分】查看版本信息print(pd.__version__)创建...

2019-08-02 17:25:01 556

原创 MySQL--增删改查

创建数据库create databases 库名 character set 编码删除数据库drop database 库名创建表create table 表名( 字段1 数据类型, 字段2 数据类型, ...)向表中添加数据(方法1)insert into 表名(字段1,字段2) values(值1,值2)向表中添加数据(方法2,适合全数据)insert int...

2019-07-28 23:50:28 405

原创 数据分析--“智能家居”产品数据分析报告

“智能家居”产品数据分析报告一、目的------以艾特公司作为目标分析公司------公司不断壮大发展,产品的多元化、发布地区、销售方法等一直是每个产品应该注意到的问题,我们进行以下分析:搜索各类智能产品的分布情况。搜索“智能家居”关键字用户的城市分布、搜索量月份分布、人群年龄分布、性 别分布。搜索网上与“智能家居”相关话题,进行词频分析对代表性产品用户评论的词频分析对报价、评...

2019-07-23 04:24:00 6658 1

原创 爬虫--拉勾网"数据分析"岗招聘信息爬取

import requestsimport jsonfrom lxml import etreefrom mysqlhelper import MysqlHelperimport timeimport randomclass LaGouSpider(): def __init__(self): # 选取热门城市 self.sqlHelper =...

2019-07-19 19:07:58 1053

原创 机器学习--KNN算法(K-近邻)

KNN算法简称:K近邻算法英文全称:K-Nearest Neighbors Algorithm属于监督学习中心思想:找到未分类的测试样本,附近K个最相近的已分类的样本,该样本的分类,由附近已分类的样本投票决定如何计算测试样本与y已分类样本之间的距离欧氏距离:相当于两点间距离曼哈顿距离:相当于X+Y如何选择K值K为经验值通常K取奇数一般情况下K∈(1,√n)当n较少...

2019-07-17 22:51:29 392

原创 机器学习--SVM支持向量机

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisiris = load_iris()X = iris.datay = iris.targetX = X[y<2, :2] # 取两个特征,二分类y = y[y<2]from sklearn.m...

2019-07-13 15:24:30 95

原创 机器学习--K-Means算法应用

import matplotlib.pyplot as pltfrom sklearn.datasets.samples_generator import make_blobs # 聚类数据测试工具# 在sklearn中,随机生成1000个样本,每个样本2个特征,共4个簇,簇中心在[-1, -1], [0, 0], [1, 1], [2, 2],簇方差分别为[0.3,0.1,0.4,0.2]...

2019-07-12 11:36:21 209

原创 机器学习--朴素贝叶斯算法

Sklearn提供三种朴素贝叶斯模型from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB 模型名称中文释义数据分布特征特点GaussianNB高斯朴素贝叶斯模型连续式数据特征的数据是连续的,比如人的身高从1.7~1.9之间可以用曲线图表示BernoulliNB伯努利朴...

2019-07-11 12:24:40 133

原创 数据分析--Python常用数据预处理方法

查看数据缺失data.isnull() #缺失返回True(data.isnull).sum #返回缺失条数查看重复数据data.duplicated() #与之前数据重复的行返回True @ 参数 subset = ['obj1','obj2'] #对obj1,obj2这两列进行查重 (data.duplicated()).sum #汇总重复的条数数据排序data.sort...

2019-07-10 02:02:35 795

原创 机器学习--数据的标准化常用方法

数据标准化的意义许多机器学习建模前,如果特征看起来一点都不符合标准正态分布的话,训练得到的模型可能会很糟糕。标准化在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。min-max标准化也称为离散标准化,是对原始数据的线性变换,将数据值映射到[0, 1]之间。Z-score标准化x:观测值x_:总...

2019-07-09 14:38:45 1374

原创 机器学习--KNN算法应用,iris鸢尾花数据集的分类

数据集介绍Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过 花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类.用CNN分类Iris数据集from sklearn.datasets import load_ir...

2019-07-09 13:10:02 4870

原创 Office--常用Excel函数整理

基础函数公式求和 SUM(A1:A5)求均值 AVERAGE(A1:A5)求最大值 MAX(A1:A5)求最小值 MIN(A1:A5)计算数量 COUNT(A1:A5)计算余数 MOD(5,4)条件函数公式查找重复内容公式 F(COUNTIF(A:A,A2)>1,"重复","")等级 IF(A1>=85,"优",IF(A1>=75,"良",IF(A1>=6...

2019-07-02 09:51:49 1429

原创 MySQL--日期相关函数

MySql-日期相关函数获得当前日期+时间 now()select now();获得当前日期+时间 sysdate()now() 在执行开始时值就得到了, sysdate() 在函数执行时动态得到值。select sysdate();获得当前时间戳函数 current_timestamp()select current_timestamp;select current_time...

2019-06-30 09:25:29 192

爬虫--拉勾网数据分析岗爬取.csv

样本量:1631条数据, 爬取城市:'北京', '上海', '深圳', '广州', '杭州', '成都', '南京', '武汉', '西安', '厦门', '长沙', '苏州', '天津', 关键字:“数据分析” 爬取日期:2019-07-15

2019-07-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除