python爬取9000条京东内衣销售数据,最最最最基础的语言和语法;并利用这些数据,基于Aprior算法分析“是否罩杯大的人倾向于买贵一些的bra”

47[TOC](爬取9000条京东内衣销售数据,最最最最基础的语言和语法,并利用这些数据,基于Aprior算法分析“是否罩杯大的人倾向于买贵一些的bra”)

本人刚接触python和爬虫不久,靠着CSDN的博文自学,尽管有很多内 容看不懂,但是还是靠着度娘的支撑慢慢啃下了不少相关博文,并实现了爬取京东的一些销售数据。从学习到实现,为了理解其他大佬们简洁有效代码花了不少功夫,着实感到不易。为了让真正0基础的朋友能看得懂,我写一个最基础的语法程序来实现它(当然我也只会这些基础语法,哈哈,这也是本人第一篇博文,还希望和大家多多交流学习)。为什么选择分析bra的数据,因为衣物是必需品,数据比较多,选bra则是因为它具有一些特点,注重数据的研究,没有太多其他意图

目的

1.京东销售数据python爬虫的简单实现与分析
2.利用销售数据分析这个问题“是否罩杯大的人倾向于买贵一些的bra”(也就是想看看罩杯和消费价格倾向这两个看似无关的元素有没有一点关联)
3.当然在1、2之中需要一些简单的数据清洗和可视化

爬虫用到两个模块urllib.request、json

1.urllib.request
这个模块就是爬虫获取信息的主要工具
req=request.Request(url)
%用于请求爬取网页的函数,参数是url(url就是爬取目标的网页,稍后会介绍怎么获取京东的评论信息的url)
response=request.urlopen(req)
%根据‘open’的字面意思可以理解为请求通过后打开网页
str=response.read()
%打开页面之后再用.read()读取信息(就是我们已经爬取到的信息,是一个很长很长的字符串,里面包含了这个网页的所有信息)

2.json
json.loads(str)
%稍后我们会知道,读取到的str(json数据类型)是一个像python里面的字典格式的字符串,很标准的一个字典格式(键值对),里面包括想得到的数据信息(当然字典里面的值也可以是字典,简单的话把他理解成Python里面的字典就行,但是它在Python里面表象是一个字符串哦)。
json.loads()就是将这个字符串转化成python里面的字典,转化后的东西就完全和python里面的字典一样了

url获取以及代码解析

1.找到京东评论页面的url

下面有图片
1.打开商品页面,下滑找到评论区并点开评论区界面

2.按f12 弹出一个窗口,点击network(有时候会提示你再按一下f5才能出现信息)

3.点击name,让它按文件名排序文件,找到我圈起来这个文件(就是商品的评论页面的内容了)

4.右边就是网页的信息,红圈的地方就是url,下面篮圈的信息是一些请求头headers 和请求方式 methon 以及他们的参数之类的,初学者可以不用理会,他们有很大用处,可以自行百度,我这里不需要用到也不做解释了

5.复制url内容,这个就是我们想要去爬取的url了

6.其实你可以仔细看这个url里面包含两个很有用的参数,一个是productID(商品id),一个是page(页码)。京东里面的所有商品都有不同的id 你可以改变它,就变成了其他商品的评论内容了;改变page的数值就是变成了评论页面的第几页(不知道是不是Bug,京东一个页面十条评论,几万评论的商品应该有几千页才对,但是我一般爬到100页以后,评论信息就空了,只拿到1000多条,不知道是不是刷出来的评论数目了。。。)。更改这两个参数就可以爬取很多商品的评论信息了。

  • 7
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值