Python入坑系列 -- 序言

最新推荐文章于 2022-03-24 09:54:22 发布

CoffeeAndIce

最新推荐文章于 2022-03-24 09:54:22 发布

阅读量185

点赞数

分类专栏： python 文章标签： python系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CoffeeAndIce/article/details/83781080

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

实在而言，为什么会学一门新语言，是一个很难以叙说的事情，可能就是为了尝试新的实现，也可能是为了拓展广度，虽然我知道贪多嚼不烂这个问题，但是还是忍不住说道: 真香~~~

开始是因为女同事让我去爬取国家统计局的省市区街道办的数据，然后想着应该不怎么难，就答应下来，不就应该解析页面获取节点内容跟xml解析应该差不多吗，随之一去不复返，看来这股劲头是拉不回来了。

网页访问流程简析：

目录

网页访问流程简析：

分析需求：

1、网页结构剖析

2、实现思路

先是去了解一下解析流程：

对于这个访问流程，虽然简陋，但是对于我们而言，应该简单明了。

从用户点击触发访问 ————> 浏览器包装转发 ————> 服务端处理返回数据结构 ————>浏览器解析———>用户

分析需求：

1、网页结构剖析

我们所需要获取的内容存在于深层次的网页中，但是无论怎么变，父级页面与子级页面总有关联的数据，方便让我们进入深层及的页面，当然，我所爬取的内容也是这个结构即：省 ——> 市 ——>区(县) ——>街道(镇) ——> 居委会

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/index.html 2017年统计局资料

比如省（直辖市）：标签下有数字，就拿广东（44）说事，点进去的URL是这样

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/44.html

第二层次是省下面的行政区域，然后你惊奇发现，url里面的后缀例如广州市（4401）

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/44/4401.html

这里一级级都有规律可循，那就容易多了。

2、实现思路

既然结构已经获取出来，那么我们就可以对其进行解刨，像我们读取配置文件，读取xml那样去将所需要的数据一一延伸获取，xml有dom4j之类的处理，配置文件也有它的Property操作，网页不可能没有它的操作。常规谷歌操作之后，发现真的有一类汤（soup）用来处理这些佐料，java有Jsoup（对不起，开头了就不提了，不打脸，如需自行谷歌），python 有它的 BeautifulSoup 。

Beautiful Soup 4.2.0 文档了解一下

剩余的就是对于python数据结构和语法特点的尝试，不得不说，挺简洁的，我用的是PyCharm ，对于这个网站的例子：

代码传送门

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python入坑系列 -- 序言

实在而言，为什么会学一门新语言，是一个很难以叙说的事情，可能就是为了尝试新的实现，也可能是为了拓展广度，虽然我知道贪多嚼不烂这个问题，但是还是忍不住说道: 真香~~~ 开始是因为女同事让我去爬取国家统计局的省市区街道办的数据，然后想着应该不怎么难，就答应下来，不就应该解析页面获取节点内容跟xml解析应该差不多吗，随之一去不复返，看来这股劲头是拉不回来了。网页访问流程简析：...
复制链接

扫一扫

专栏目录

CoffeeAndIce CSDN认证博客专家 CSDN认证企业博客

码龄7年

96: 原创

4万+: 周排名

1万+: 总排名

20万+: 访问

-: 等级

0: 积分

149: 粉丝

187: 获赞

59: 评论

370: 收藏

私信

关注

热门文章

分类专栏

中间件迁移升级 5篇
常見問題處理 12篇
orm 1篇
兼容性问题 4篇
接入笔记 8篇
Vue 9篇
EOS 3篇
测试 1篇
Mysql 1篇
logback 1篇
springSecurity 2篇
ivr 1篇
spring 1篇
solr 6篇
springBoot 11篇
hadoop 5篇
zookeeper 1篇
基础 8篇
Netty 3篇
nginx 7篇
guice 3篇
web相关 6篇
python 1篇
多线程 2篇
JVM 3篇
redis 2篇

最新评论

web常见漏洞修复方法
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
SAML2.0 笔记（二）
CoffeeAndIce: 这个部分主要是看你跟服务端用什么模式连接，不好意思，刷太快，没看到。
SAML2.0 笔记（二）
CoffeeAndIce: 忘记回复了，你看第一个，我放上去了
SAML2.0 笔记（二）
ZhangRuiJava: 大佬，否添加wx好友。有问题请教
关于weibo的接入笔记
qq_28335795: 好的，感谢。找到了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。