自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 快捷存储抓取的信息(以猪八戒为例)

1. 实现功能爬取网站中的“店铺名称”“描述”“价格”“销量”,并存储到表格中。主要是练习使用 workbook2. 目标网站链接: https://liaoning.zbj.com/search/f/?type=new&kw=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&fr=newpdy.it.20.8.04.3. 代码实现# -*- codeing = utf-8 -*-#@Time : 2021-05-07 08:06#@Author

2021-05-07 12:27:41 326

原创 明星热度动态排行

参考: B站_葩葩数据_2021年4月流量明星百度搜索指数动态排名.小姐姐讲的非常好,希望多多关注、点赞。流程1.微博爬取排名前120的明星2.百度指数获取明星热度值3.flourish生成动态排行明星排行数据来源: 微博-超话排行-明星.明星热度数据来源: 百度指数.动态排行生成工具: flourish Bar chart race.1.微博爬取排名前120的明星import requestsimport pandas as pdimport numpy as npimport t

2021-05-05 19:35:04 1158

原创 asyncio简易爬取图片

asyncio简易爬取图片1.实现功能2.简单实现3.asyncio异步爬取1.实现功能爬取明星写真图片,网址: http://www.521609.com/tuku/mxxz/index.html.2.简单实现# -*- codeing = utf-8 -*-#@Time : 2021-04-15 08:52#@Author : Guo#@Fil : main.py#@Software : PyCharmimport requestsfrom lxml import etreeim

2021-04-15 14:57:03 385

原创 爬取微信文章改进(20.12.15)+mysql

目录1. 目标网址2. 整体思路1. 输入关键词,获取当前页面2. 获取当前页面所有文章的链接3. 跳转到具体文章,解析后获取数据内容3. 具体实现3.1 设置代理池3.2 获取页面3.3 获取文章的链接3.4 根据文章的链接访问页面3.5 解析页面,获取数据3.6 存储到mysql3.6.1 设计表3.6.2 存储到数据库代码4. 结果显示完整代码参考1. 目标网址https://weixin.sogou.com/2. 整体思路1. 输入关键词,获取当前页面2. 获取当前页面所有文章的链接3.

2020-12-15 16:58:24 723

原创 爬取今日头条图片(解决缩略图问题+MySQL)

爬取今日头条图片1. 引言2. 分析2.1 获取主页的url2.2 获取当前页所有文章的链接2.3 具体文章的信息2.4 MySQL设置3.代码4. 效果4.1 本地效果图4.2 MySQL效果图参考:1. 引言  针对python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图中存在的爬取图片为缩略图以及图片不全的问题,本文做出如下改进:  (1) 爬取网页全部的图片;  (2) 爬取原始图片;  (3) 将图片url存储到MySQL。  作者处于爬虫入门阶段,可能有些部分不是很准确,

2020-12-11 23:06:03 1591

原创 客户还款可能性预测

目的:根据用户的申请表来判别用户是否会按时还款。1. 导入数据import numpy as npimport pandas as pd from sklearn.preprocessing import LabelEncoderimport osimport warningswarnings.filterwarnings('ignore')import matplotlib.pyplot as pltimport seaborn as snsfrom matplotlib.font_m

2020-08-23 15:53:25 1670 1

原创 用户消费行为分析

1. 项目简介数据来源:CDNow网站的用户在1997年1月1日至1998年6月30日期间内购买CD交易明细。数据集字段:用户ID,购买日期,订单数,订单金额。目标:通过各个指标对用户行为进行分析,更清楚了解用户行为习惯,为进一步制定营销策略提供依据。2. 思路3. 具体分析3.1 用户总体消费行为分析3.1.1 每月产生的总订单数从结果可用看出:统计每个月的CD销量。前3个月的销量数据相对较高,有异常。而后期的销量则很平稳。假设出现的原因:用户数据异常值。有促销活动。某一(

2020-08-21 15:49:52 2146

原创 快手数据分析

1. 数据集2. 每天的注册数用户注册数量变化大致以7天(1周)为一个周期,每个周期内前5天注册数量较为平稳,到最后两天注册数量会出现显著提升,可能是因为周末的原因,用户有更充分的休息时间;同时,注册用户数量也随时间周期的推移逐渐递增。3. 漏斗图状态数量月注册用户数量51709活跃用户数量14753有转发行为的用户数8963有拍摄行为的用户7606有重复拍摄行为的用户数3270...

2020-08-19 10:58:51 3045

原创 爱彼迎数据分析报告(修改)

1、简介1.1 原始数据来源https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data,也可通过https://www.kesci.com/home/dataset/5d12e2f9708b90002c541692进行下载。1.2 目标通过对用户在爱彼迎使用情况进行分析,市场规律,为进一步制定发展策略提供依据。1.3 数据集字段train_users.csv - 训练集test_users.csv - 测试集id:用户I

2020-08-14 17:27:47 3122

原创 苹果商店数据分析报告

简介数据来源:苹果App Store中app的相关信息。目标:通过对app的使用情况进行处理,分析市场规律,为进一步制定营销策略提供依据。数据集字段:整体分析流程:数据分析1. app类型及分布结论:数据中含有6667款游戏,分为23种不同的类型,其中Games最多,有3600款,占比54.0%,其次是entertainment占比7.4%,education占比6.4%。说明Games目前受众最多,市场竞争最激烈。2. app的评价结论:评价数目最多的是Games类型App,总

2020-08-10 17:17:09 4751 1

原创 分析数据分析岗位实习信息(3、补充)

接着上一篇继续的数据进行分析5.4 公司规模df.loc[:,'公司规模'].value_counts()我们把公司规模按照人数分为3类:2000人的为大型公司,15人的为小型公司,其他为中型公司。则有,大型企业:156 , 中型企业:244 , 小型企业:10。plt.figure(figsize=(6,9))#定义饼状图的标签,标签是列表labels = [u'大型企业',u'中型企业',u'小型企业']#每个标签占多大,会自动去算百分比sizes = [156,244,

2020-08-05 10:46:46 498

原创 分析数据分析实习岗位信息(2、数据分析+词云)

目录1. 从mysql获取之前抓取的数据,并存为csv2. 读取数据3. 部分数据反了4. 数值型数据处理4.1 处理每周工作时长4.2 处理实习期4.3 处理公司规模4.4 处理工资,转为最低日薪 、 最高日薪、平均日薪5. 分析5.1 城市与职位数量5.2 薪资分析5.2.1 全国的平均月薪5.2.2 月薪与城市5.3 评论词云代码链接:https://github.com/guotianyi960531/shixiseng_Dataget1. 从mysql获取之前抓取的数据,并存为csv从数据库

2020-08-04 14:10:10 474

原创 分析数据分析实习岗位信息(1、数据获取)

目录1.1 网页分析1.2 字体反扒机制1.3 构造字典1.4 创建表1.5 根据自己的需要进行修改又到了一年一度的秋招了,由于受疫情的影响,部分公司减少了数据分析相关岗位的实习名额,为了更了解秋招的相关岗位信息,这里针对实习僧 网站链接 的数据分析实习信息进行了爬取以及分析。1.1 网页分析进入实习僧首页,输入关键词:数据分析,并把搜索范围限定在全国,这样我们就可以看到相关的实习信息。右键检查,我们会发现,有些文字内容显示不全,被某些字符替代这就涉及到了字体反扒机制。1.2 字体反扒机制

2020-08-02 20:20:40 895

原创 爬取微博评论并存入MySQL,并对评论进行情感分析以及词云的绘制

目录1. 爬取微博评论1.1 网页解析1.2 爬取评论2. 处理数据并存入数据库3. 提取数据4. 情感分析5. 绘制词云结束参考:https://blog.csdn.net/weixin_42555080/article/details/883630401. 爬取微博评论1.1 网页解析从经验来讲,爬取难度:微博网页端>手机端,参考 Blessy_Zhu.提出的方法,这里对微博移动端:htps://m.weibo.cn 进行爬取。单从界面上来讲就能看出爬取的难度了。下面选择一条感兴趣的

2020-07-31 19:10:31 4391

原创 THE9爱奇艺扫楼 弹幕热度排名及词云图制作

目录1. 简介2. 弹幕数据的获取2.1 导包2.2 获取数据3. 分析数据3.1 统计每个Id的弹幕数,看是否有恶意刷屏4. 热度统计4.1 涉及每名成员的弹幕数量4.2 涉及每名成员的弹幕所属ID数量4.3 热度排名4.4 热力图5. 构建词云6. 链接代码中出现的文档1. 简介这个博客是B站up主葩葩数据小姐姐的有关THE9爱奇艺扫楼 弹幕热度排名及词云图制作 视频的代码整理,有兴趣的同学可以参考 视频讲解,希望能给小姐姐多多点赞投币,以后有时间会把小姐姐的其他视频代码整理出来.2. 弹幕数

2020-07-28 21:12:41 1316

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除