python爬虫

第二关:

Python代码解析数据
如何解析这堆杂乱无章的数据?

(1)打开网页工具 www.json.cn
(2)将数据整理成Json格式:以大括号开头和结尾
(3)找到目标数据值对应的名字
Python replace语法

replace为替换的意思,可以使用replace把任何不想要的数据替换成一个新值

引入Python整理数据的工具包 json、获取鞋子颜色及鞋码数据

import requests
import json
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10335871589&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content = resp.text
rest = content.replace('fetchJSON_comment98(','').replace(');','')
json_data = json.loads(rest)
# comments=10条数据
comments = json_data['comments']
for item in comments:
  productColor = item['productColor']
  productSize = item['productSize']
  print("鞋子颜色=",productColor)
  print("鞋子大小=",productSize)

结果图

在这里插入图片描述

import requests
import json
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006262957&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content = resp.text
text = content.replace('fetchJSON_comment98(','').replace(');','')
json_data = json.loads(text)
comments = json_data['comments']
for item in comments:
  color = item['productColor']
  print("productColor=",color)

利用for循环写一段代码,爬取评论中口红的色号数据

import requests
import json
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006262957&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content = resp.text
text = content.replace('fetchJSON_comment98(','').replace(');','')
json_data = json.loads(text)
comments = json_data['comments']
for item in comments:
  color = item['productColor']
  print("productColor=",color)

结果图

在这里插入图片描述

4行代码带数据回家

学会引入openpyxl工具包存储数据?

数据保存步骤

(1)创建一个Excel表格

(2)创建一个sheet

(3)在sheet里面保存数据

(4)把表格保存在一个磁盘里

代码

import openpyxl
import matplotlib.pyplot as plt
wk = openpyxl.load_workbook('data/msf-15574864193.xlsx')
sheet = wk['Sheet1']
colors = []
sizes = []
for i in range(1,21):
  colors.append(sheet['A' + str(i)].value)
  sizes.append(sheet['B' + str(i)].value)
color_class = set(colors)
count = len(colors)
color_percent = []
for clr in color_class:
  color_percent.append(colors.count(clr)/count)
plt.pie(x=color_percent,labels=color_class,autopct='%1.3f%%')
plt.rcParams['font.sans-serif']=['SimHei']
plt.legend()
plt.savefig('data/msf-15574864193.png')

结果图

在这里插入图片描述

主题:

python技能应用方向详细剖析

爬虫、办公自动化和数据分析?

它们能给我们的工作带来什么便利呢?

学会这项技能你需要掌握哪些知识?多久可以学会呢?

思考

那么对于学习一门技能我们首先要找到这几个问题的答案:

1、学了能做什么、解决什么问题❓

2、需要掌握哪些知识?要学多久?怎么高效学习❓

技能具体有哪些呢❓

三个技能都是【通用型应用技能】,分别是:爬虫、办公自动化、数据分析

答案

1、爬虫

这是杨淑娟老师(娟儿姐)历时8个月打磨出来的最新大纲(已迭代新增10课时,新技术),看大纲你就大概知道掌握这门技能有哪些知识点,非常全面

这些一共90课时,每个课时30分钟,加自己练习时间20-30分钟,也就是说每天假如学习一个课时,3个月学完爬虫和语法部分

自动化办公无非是excel、ppt、word、邮件、文件自动化处理等等

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

土豆娃potato

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值