heatherland-CSDN博客

原创快捷存储抓取的信息（以猪八戒为例）

1. 实现功能爬取网站中的“店铺名称”“描述”“价格”“销量”，并存储到表格中。主要是练习使用 workbook2. 目标网站链接: https://liaoning.zbj.com/search/f/?type=new&kw=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&fr=newpdy.it.20.8.04.3. 代码实现# -*- codeing = utf-8 -*-#@Time : 2021-05-07 08:06#@Author

2021-05-07 12:27:41 411

原创明星热度动态排行

参考： B站_葩葩数据_2021年4月流量明星百度搜索指数动态排名.小姐姐讲的非常好，希望多多关注、点赞。流程1.微博爬取排名前120的明星2.百度指数获取明星热度值3.flourish生成动态排行明星排行数据来源：微博-超话排行-明星.明星热度数据来源：百度指数.动态排行生成工具： flourish Bar chart race.1.微博爬取排名前120的明星import requestsimport pandas as pdimport numpy as npimport t

2021-05-05 19:35:04 1629

原创 asyncio简易爬取图片

asyncio简易爬取图片1.实现功能2.简单实现3.asyncio异步爬取1.实现功能爬取明星写真图片，网址: http://www.521609.com/tuku/mxxz/index.html.2.简单实现# -*- codeing = utf-8 -*-#@Time : 2021-04-15 08:52#@Author : Guo#@Fil : main.py#@Software : PyCharmimport requestsfrom lxml import etreeim

2021-04-15 14:57:03 492

原创爬取微信文章改进（20.12.15）+mysql

目录1. 目标网址2. 整体思路1. 输入关键词，获取当前页面2. 获取当前页面所有文章的链接3. 跳转到具体文章，解析后获取数据内容3. 具体实现3.1 设置代理池3.2 获取页面3.3 获取文章的链接3.4 根据文章的链接访问页面3.5 解析页面，获取数据3.6 存储到mysql3.6.1 设计表3.6.2 存储到数据库代码4. 结果显示完整代码参考1. 目标网址https://weixin.sogou.com/2. 整体思路1. 输入关键词，获取当前页面2. 获取当前页面所有文章的链接3.

2020-12-15 16:58:24 888

原创爬取今日头条图片（解决缩略图问题+MySQL）

爬取今日头条图片1. 引言2. 分析2.1 获取主页的url2.2 获取当前页所有文章的链接2.3 具体文章的信息2.4 MySQL设置3.代码4. 效果4.1 本地效果图4.2 MySQL效果图参考：1. 引言针对python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图中存在的爬取图片为缩略图以及图片不全的问题，本文做出如下改进： (1) 爬取网页全部的图片； (2) 爬取原始图片； (3) 将图片url存储到MySQL。作者处于爬虫入门阶段，可能有些部分不是很准确，

2020-12-11 23:06:03 1851

原创客户还款可能性预测

目的：根据用户的申请表来判别用户是否会按时还款。1. 导入数据import numpy as npimport pandas as pd from sklearn.preprocessing import LabelEncoderimport osimport warningswarnings.filterwarnings('ignore')import matplotlib.pyplot as pltimport seaborn as snsfrom matplotlib.font_m

2020-08-23 15:53:25 1964 1

原创用户消费行为分析

1. 项目简介数据来源：CDNow网站的用户在1997年1月1日至1998年6月30日期间内购买CD交易明细。数据集字段：用户ID，购买日期，订单数，订单金额。目标：通过各个指标对用户行为进行分析，更清楚了解用户行为习惯，为进一步制定营销策略提供依据。2. 思路3. 具体分析3.1 用户总体消费行为分析3.1.1 每月产生的总订单数从结果可用看出：统计每个月的CD销量。前3个月的销量数据相对较高，有异常。而后期的销量则很平稳。假设出现的原因：用户数据异常值。有促销活动。某一（

2020-08-21 15:49:52 2356

原创快手数据分析

1. 数据集2. 每天的注册数用户注册数量变化大致以7天（1周）为一个周期，每个周期内前5天注册数量较为平稳，到最后两天注册数量会出现显著提升，可能是因为周末的原因，用户有更充分的休息时间；同时，注册用户数量也随时间周期的推移逐渐递增。3. 漏斗图状态数量月注册用户数量51709活跃用户数量14753有转发行为的用户数8963有拍摄行为的用户7606有重复拍摄行为的用户数3270...

2020-08-19 10:58:51 3322

原创爱彼迎数据分析报告（修改）

1、简介1.1 原始数据来源https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data，也可通过https://www.kesci.com/home/dataset/5d12e2f9708b90002c541692进行下载。1.2 目标通过对用户在爱彼迎使用情况进行分析，市场规律，为进一步制定发展策略提供依据。1.3 数据集字段train_users.csv - 训练集test_users.csv - 测试集id：用户I

2020-08-14 17:27:47 3320

原创苹果商店数据分析报告

简介数据来源：苹果App Store中app的相关信息。目标：通过对app的使用情况进行处理，分析市场规律，为进一步制定营销策略提供依据。数据集字段：整体分析流程：数据分析1. app类型及分布结论：数据中含有6667款游戏，分为23种不同的类型，其中Games最多，有3600款，占比54.0%，其次是entertainment占比7.4%，education占比6.4%。说明Games目前受众最多，市场竞争最激烈。2. app的评价结论：评价数目最多的是Games类型App，总

2020-08-10 17:17:09 5032 1

原创分析数据分析岗位实习信息（3、补充）

接着上一篇继续的数据进行分析5.4 公司规模df.loc[:,'公司规模'].value_counts()我们把公司规模按照人数分为3类：2000人的为大型公司，15人的为小型公司，其他为中型公司。则有，大型企业：156 ，中型企业：244 ，小型企业：10。plt.figure(figsize=(6,9))#定义饼状图的标签，标签是列表labels = [u'大型企业',u'中型企业',u'小型企业']#每个标签占多大，会自动去算百分比sizes = [156,244,

2020-08-05 10:46:46 578

原创分析数据分析实习岗位信息（2、数据分析+词云）

目录1. 从mysql获取之前抓取的数据，并存为csv2. 读取数据3. 部分数据反了4. 数值型数据处理4.1 处理每周工作时长4.2 处理实习期4.3 处理公司规模4.4 处理工资，转为最低日薪、最高日薪、平均日薪5. 分析5.1 城市与职位数量5.2 薪资分析5.2.1 全国的平均月薪5.2.2 月薪与城市5.3 评论词云代码链接：https://github.com/guotianyi960531/shixiseng_Dataget1. 从mysql获取之前抓取的数据，并存为csv从数据库

2020-08-04 14:10:10 589