自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 问答 (1)
  • 收藏
  • 关注

原创 基于RFM模型的Kmeans聚类算法实现

基于RFM模型的K均值聚类算法实现

2023-02-12 12:05:12 953

原创 对某在线教育平台用户使用RFM模型按价值分类

对某在线教育平台用户使用RFM模型按价值分类

2023-02-12 12:04:42 348

原创 猎聘网岗位数据分析实践

猎聘网岗位数据分析模型说在前面项目背景交叉分析法八象限法八象限法的经典应用-RFM法明确目的初始化环境引入数据分析python库设置绘图中文支持排除警告读取数据数据的预处理缺失值处理重复项检查数据重新定序数据的数值化薪资学历要求工作年限经过处理后的数据八象限法分析八象限法各种工作类别成员筛选可视化展示柱形图饼图树地图数据可视化城市和区分开全国数据分析平均年薪和各市平均年薪找出平均年限top10城市柱形图全国岗位数量排名前10的城市柱形图气泡图学历高低与岗位数量的关系柱形图气泡图工作年限与岗位数量的关系柱形图

2021-02-28 14:28:01 1724 9

原创 项目五:获取数据:京东

爬取京东直接上代码点击跳转总目录直接上代码此项目主要为了学习RFM模型,R(近度)F(频度)M(额度),我把目标盯上了淘宝,京东这种购物网站,但是水平太菜,于是退而其次打算爬取当当网试试前几天学了selenium,参考了网上的代码写了这个爬虫写了这个爬虫之后发现获取到的数据仍然并不理想,故放弃import timefrom selenium import webdriverfrom lxml import etreeimport urllibimport csvimport pan

2021-02-27 19:15:08 301 2

原创 项目五:获取数据:当当网

爬取当当网直接上代码点击跳转到总目录直接上代码此项目主要为了学习RFM模型,R(近度)F(频度)M(额度),我把目标盯上了淘宝,京东这种购物网站,但是水平太菜,于是退而其次打算爬取当当网试试参考写了这个爬虫之后发现获取到的数据并不理想,故放弃import requestsfrom lxml import etreeimport pandas as pdtest_url = 'http://search.dangdang.com/?key='+ '数据分析'content_page =

2021-02-27 19:09:42 213

原创 项目四:数据获取:合并excel

合并excel直接上代码点击跳转到总目录本篇只记录程序点击跳转项目直接上代码可以自动合并一个文件夹下所有xlsx,亲测可用# 下面这些变量需要您根据自己的具体情况选择# ['岗位名称','公司全名','备注','薪资','年薪','工作地点','学历要求','工作年限']import osimport pandas as pdimport xlrd# 注意这里的 xlsx 文件内容不同(如果相同的话合并干嘛) 但格式是一样的# 每个文件一个只有 sheet1 有内容 其他地方空

2021-02-27 18:47:53 205 2

原创 项目四:数据获取:腾讯招聘

爬取腾讯招聘直接上代码点击跳转到总目录本篇只记录程序点击跳转项目直接上代码因为数据少(相比于猎聘网),所以最后还是选取了爬取猎聘# encoding: utf-8import requestsimport csvimport xlwt #写入excel文件url = "https://careers.tencent.com/tencentcareer/api/post/Query"headers = { "user-agent": "Mozilla/5.0 (W

2021-02-27 18:43:28 285 1

原创 项目四:数据获取:拉勾网

爬取拉勾网直接上代码点击跳转到总目录本篇只记录程序点击跳转项目直接上代码用selenium参考网上大神们做的from selenium import webdriverimport timeimport loggingimport randomimport openpyxlwb = openpyxl.Workbook() # 创建工作薄对象sheet = wb.active # 获取活动的工作表# 添加列名sheet.append(['job_name'

2021-02-27 18:37:00 518 1

原创 项目四:数据获取:猎聘网

爬取猎聘网项目背景爬取猎聘网代码(20张)改进爬取总结项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据分析”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的数据分析人才?需要什么样的技能?不管是对于在校生,还是对于求职者来说,都显得很有必要但是谁知获取数据部分就给了我当头一棒首先我盯上了猎聘网(以前练习爬虫时爬过)爬取猎聘网代码(20张)from makerbean import web_crawler_bot as

2021-02-27 18:29:42 1155

原创 项目三:近10年来中国电影票房数据爬取分析

近10年来中国电影票房数据爬取分析前言数据采集与存储数据清洗和简单分析引入库,导入数据近10年top年度top5结论end点击跳转到总目录前言这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的爬取与简单分析。之所以想到做这个,是因为当时正爬完豆瓣电影top250,让我对中国的电影市场产生了好奇,想了解一下近年来中国电影市场的发展,于是想爬取近十年的中国电影票房。我在爬取的过程中,遇到困难主要由两个方面:1:数据不公开没有一个权威、公开、透明的电影数据网站。2:设置爬虫障碍查看

2021-02-27 17:09:40 7360 6

原创 项目二:python爬取豆瓣电影信息并分析

总目录点击跳转说在前面对豆瓣电影top250的爬取与分析爬虫时主要运用的库是re,request,Beautifulsoup,lxml,分析时主要运用的是pandas,matplotlib。通过 F12 查看网页源代码,ctrl+shift+ictrl+shift+n,检查元素,定位要爬取的信息,这里可以右击复制xpath,用于爬虫定位。爬虫定位有三种方法:通过正则表达式定位通过Beautifulsoup中find函数定位通过lxml中Xpath定位观察一下网页,可以发现一共有10

2021-02-25 20:00:29 9694 14

原创 项目一:爬取天气数据并可视化

说在前面天气预报我们每天都会关注,我们可以根据未来的天气增减衣物、安排出行,每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。本次使用python中requests和BeautifulSoup库对中国天气网当天和未来14天的数据进行爬取,保存为csv文件,之后用matplotlib、numpy、pandas对数据进行可视化处理和分析,得到温湿度度变化曲线、空气质量图、风向雷达图等结果,为获得未来天气信息提供了有效方法。代码主要分为weather.py:对中国天气网进行爬取天气数据并保存c

2021-02-25 19:41:00 8711 11

原创 总目录

总目录项目一:爬取天气数据并可视化爬取数据当天24h可视化分析未来14天可视化分析项目二:python爬取豆瓣电影信息并分析爬虫数据分析项目三:近十年中国电影票房数据爬取与分析项目四:招聘网站岗位数据分析模型项目五:电商案例数据分析模型项目一:爬取天气数据并可视化爬取数据当天24h可视化分析未来14天可视化分析项目二:python爬取豆瓣电影信息并分析爬虫数据分析项目三:近十年中国电影票房数据爬取与分析项目四:招聘网站岗位数据分析模型项目五:电商案例数据分析模型...

2021-02-25 19:25:45 564

原创 python_计算机二级_标准库_random

计算机二级_python_random一,概述python提供了random库用于产生各种各样分布的伪随机数序列伪随机数:采用梅森旋转算法生成的(伪)随机序列中元素二,需要掌握的能力能利用随机种子产生“确定”伪随机数能产生随机整数能对序列类型进行随机操作三,导入random库.import randomfrom random import *四,库函数random() 用来产生[0.0,1.0)之间的随机数 所有的随机函数都是基于rando

2020-09-14 21:50:23 304

原创 python_计算机二级_标准库_turtle

python计算机二级考试_标准库_python一,turtle库概述turtle库是turtle绘图体系的python实现turtle绘图体系1969诞生,主要用于程序设计入门python语言的标准库之一入门级的图形绘制函数库二, 导入turtle库import turtlefrom turtle import *from turtle import …import turtle as …三, 窗体函数setup(width,height,startx

2020-09-14 21:36:54 931

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除