为何会有这么一个想法呢?很久之前,在微信公众号中看到过一片文章,关于分析文胸cup和颜色的文章。许久过去了,大概都忘记了。前几天又正好找点时间学一下python的爬虫,于是乎就想找一个小项目练练手,就想到了爬取京东文胸售卖记录,来分析cup和color。
- 代码我已经上传到我的资源中了,因为没有大家感兴趣的可以去下载看看:
本次大行动使用简单的python爬虫爬取的。共爬取了150个商品,每个商品爬最近的19页评论(超过19页后面的评论页面返回空数据),每页评论10条,总共爬取了148 x 19 x10条评论(实际24643条)。
- 150个商品
- 每个商品19页评论
- 每页评论10条
- 24642条评论数据
爬取链接:
https://search.jd.com/Search?keyword=文胸&psort=4&wq=文胸&psort=4&click=1
用到工具:
爬取了如下字段:
{
"id": 15236751915,
"guid": "5e078d80db31711e2532b9d9bff10803",
"content": "收货拆开试了试,材质手感很好,质量不错,包装也挺精美。就是尺码偏小了点,亲们选购时候一定要弄清楚尺码,前面扣的和后面扣的不一样,没法调节。\n杯型:杯型很合适。\n材质面料也很舒服,值得这个价。\n\n尺码:选购时务必要弄清楚尺码,因为这款属于标准版,没有多少调整的余量。",
"vcontent": "收货拆开试了试,材质手感很好,质量不错,包装也挺精美。就是尺码偏小了点,亲们选购时候一定要弄清楚尺码,前面扣的和后面扣的不一样,没法调节。\n{$%&杯型:&%$}杯型很合适。\n材质面料也很舒服,值得这个价。\n\n{$%&尺码:&%$}选购时务必要弄清楚尺码,因为这款属于标准版,没有多少调整的余量。",
"creationTime": "2021-01-23 08:47:24",
"isDelete": false,
"isTop": false,
"userImageUrl": "misc.360buyimg.com/user/myjd-2015/css/i/peisong.jpg",
"topped": 0,
"replyCount": 0,
"score": 5,
"imageStatus": 1,
"title": "",
"usefulVoteCount": 0,
"userClient": 4,
"discussionId": 856380715,
"imageCount": 4,
"anonymousFlag": 1,
"plusAvailable": 103,
"mobileVersion": "",
"images": [{
"id": 1345546328,
"imgUrl": "//img30.360buyimg.com/n0/s128x96_jfs/t1/150837/25/16387/90685/600b721aE1e47a683/6f0401ce9cd15ccd.jpg",
"imgTitle": "",
"status": 0
}, {
"id": 1345546329,
"imgUrl": "//img30.360buyimg.com/n0/s128x96_jfs/t1/158396/31/4497/111041/600b721bE19f35075/0195b79d8aa74b43.jpg",
"imgTitle": "",
"status": 0
}, {
"id": 1345546330,
"imgUrl": "//img30.360buyimg.com/n0/s128x96_jfs/t1/156804/18/7154/92294/600b721cE1d188a47/3c09ad25900558a4.jpg",
"imgTitle": "",
"status": 0
}, {
"id": 1345547021,
"imgUrl": "//img30.360buyimg.com/n0/s128x96_jfs/t1/160232/39/4586/145632/600b721cEeffdb8bf/7d9c9558267085bd.jpg",
"imgTitle": "",
"status": 0
}],
"mergeOrderStatus": 2,
"productColor": "玫红",
"productSize": "36/80C",
"textIntegral": 20,
"imageIntegral": 20,
"status": 1,
"referenceId": "19290874381",
"referenceTime": "2021-01-19 10:28:58",
"nickname": "w***5",
"replyCount2": 0,
"userImage": "misc.360buyimg.com/user/myjd-2015/css/i/peisong.jpg",
"orderId": 0,
"integral": 40,
"productSales": "[]",
"referenceImage": "jfs/t11695/70/1097763091/206512/541dde0f/59fd8705Na7e28b5d.jpg",
"referenceName": "丝莉洛无钢圈文胸聚拢上托前扣蕾丝性感小胸少女胸罩无痕内衣女秋 紫色 32/70AB通用",
"firstCategory": 1315,
"secondCategory": 1345,
"thirdCategory": 1364,
"aesPin": null,
"days": 4,
"afterDays": 0
}
数据当中,最重要的就是productSize和productColor两个参数。
但是这两个数据当中参数形式各不相同,因此需要清理。
清理规则很简单:
-
对关键字进行替换,如下图。
-
对尺码进行清洗,32-38转换成中国码 70-90
[字母][数字]
尺码为ABCDEFG. 数字为70 75 80 85 90 95
数据:
数据分析:
本次分析数据量总共:24642条
评价:均为5星评价
时间跨度: 2016 - 2021
本次简单分析主要从数据属性、颜色分析、尺码分析三个方面进行。
如下图:
其中150件商品中品牌信息如下:
字越大买的人越多,直男表示基本没听过,不过Ubras这个名字挺高大上的。
本次爬取的数据中,时间来自2020年的超过50%的,另有大于30%来自2021年,以往年的评论较少,应该是京东把旧的评论和差评都隐藏起来了,基本爬不到,只有通过过滤操作才能过滤出来。
在色彩中,其中红色、肤色、黑色是广大女性的最佳选择,白色占的少,绿色系(不是纯绿色,可能是蓝绿色,浅绿色,草绿色等等)占比蛮多,灰色、粉色仅供参考,因为其中包含灰蓝,灰红,粉蓝等色。
除此之外,不知道为甚么,我参考了其他分析人员的分析报告,基本都是红色的占比很少,不知道为什么,我爬下来的两万多条数据中,红色居然占据了最高的比例,这一点比较奇怪,其它的倒是差不多。
最后是大家关系的尺码问题了。尺码统计中,暂时把均码排除在外,因为均码看不出Cup信息,可以看到,所有尺码中A-C,70-80占比最多,这说明这些女性中身板较小,胖瘦均匀,尺码较小,其中最多的是B75,前三是:B75, B80, A75
总结起来就是:普遍偏小,但不至于比我还小。
下面这幅图中,单纯分析Cup,其中B Cup一超,A Cup紧随其后,如果说A Cup比较常见,那么C Cup也和A Cup差不多,最多的是B Cup,就是正常人Cup,D就比较少了,E、F、G那就是万中挑一了。
另外,尺码为70-90,这个尺码是下胸围的尺码,这个大小决定了你是否强壮。如此看来,70为娇小,75为正常,80为微壮,85为结实,90、95为胖。如此一看正常体态的最多,因为现在营养好,所以很多女生都微微壮了一些(猜测),仍然有20%左右的女生很娇小,胖的毕竟是少数,胖的总共才10%-15%的样子。
总结:
- 说到底,因为本次数据仅仅从京东上面爬了2w多条数据,数据还存在一些精度问题,除此之外,很多信息没有爬到,比如用户的基本信息,用户来自哪里,年龄性别等等。所以数据分析偏片面和简单化,下一步工作可以从数据的广度和深度两个方面入手,爬取TB、PDD、WPH等平台的10万级的数据量来做分析;另外在深入爬取一些其它信息,拓展数据的深度。
- 本次简单数据分析仅仅做了简单的统计,没有做数据挖掘、关联分析等操作,下一步可以将一些常用的数据分析算法应用到其中,挖掘出一些更加有效的信息。
- 于数据本身来说,广大女性还是偏好红色、肤色、黑色、粉色等色彩,其它色彩也不能说不喜欢,更加可能的情况是:这些颜色的文胸更加实用,比如耐脏、更好搭配、不刺眼、容易驾驭等。中国各省份各地的平均Cup在B,其中A和B占据了将近80%,只有五分之一的女性Cup大,也就是五个女性中只有一个是Big Cup了,所以大家不用自卑了,胸小是普遍现象,是我国短时间还无法改变的基本国情。