python京东商品采集_利用Python正则表达式抓取京东网商品信息

最新推荐文章于 2024-03-22 10:41:03 发布

weixin_39917046

最新推荐文章于 2024-03-22 10:41:03 发布

阅读量216

点赞数

文章标签： python京东商品采集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39917046/article/details/111906765

版权

京东(JD.com)是中国最大的自营式电商企业，2015年第一季度在中国自营式B2C电商市场的占有率为56.3%。如此庞大的一个电商网站，上面的商品信息是海量的，小编今天就带小伙伴利用正则表达式，并且基于输入的关键词来实现主题爬虫。

在京东网上，狗粮信息在京东官网上的网页源码如下图所示：

狗粮信息在京东官网上的网页源码

话不多说，直接撸代码，如下图所示。小编用的是py3，也建议大家以后多用py3版本。通常URL编码的方式是把需要编码的字符转化为%xx的形式，一般来说URL的编码是基于UTF-8的，当然也有的于浏览器平台有关。在Python的urllib库中提供了quote方法，可以实现对URL的字符串进行编码，从而可以进入到对应的网页中去。

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：Regular Expression，在代码中常简写为regex、regexp或RE)，是一种可以用于模式匹配和替换的强有力的工具。找到目标网页之后，调用urllib中的urlopen函数打开网页并获取源码，之后利用正则表达式实现对目标信息的精准采集。

利用正则表达式实现对目标信息的精准采集

正则表达式写在这个程序中确实蛮复杂的，也占据了多行，但是主要用到的正则表达式是[\w\W]+?和[\s\S]+?。

[\s\S]或者[\w\W]是完全通配的意思，\s是指空白，包括空格、换行、tab缩进等所有的空白，而\S刚好相反。这样一正一

最低0.47元/天解锁文章

weixin_39917046

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python京东商品采集_利用Python正则表达式抓取京东网商品信息

京东(JD.com)是中国最大的自营式电商企业，2015年第一季度在中国自营式B2C电商市场的占有率为56.3%。如此庞大的一个电商网站，上面的商品信息是海量的，小编今天就带小伙伴利用正则表达式，并且基于输入的关键词来实现主题爬虫。在京东网上，狗粮信息在京东官网上的网页源码如下图所示：狗粮信息在京东官网上的网页源码话不多说，直接撸代码，如下图所示。小编用的是py3，也建议大家以后多用py3版本。通...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。