Python抓取极客学院开放数据

最新推荐文章于 2024-04-19 22:39:11 发布

VIP文章 NealKafuly

最新推荐文章于 2024-04-19 22:39:11 发布

阅读量601

点赞数

分类专栏： python 文章标签： python 数据抓取 http

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nealkafuly/article/details/52296017

版权

Python 是比较美的语言，相见恨晚

抓数据的一般步骤

首先，锁定目标，也就是确定网站链接的格式。
其次，在浏览器中或者在wireshark中尝试抓包，分析数据，主要是利用浏览器的查看源码功能，分析需要抓包的数据的结构特点，确定规律。
编写python代码，分析数据，反反复复，得到脚本。

我的例子

#encoding:utf-8
import requests
import re
class Spider:
    #构造函数
    def __init__(self):
        print u('开始执行爬虫')
    #用来获取页面源码
    def getSource(self,url):
        html=requests.get(url)
        return html
    #产生不同页数
    def changePage(self,url,total_page):
        now_page=int(re.search('pageNum=(\d+)',url,re.S).group(1))
        page_group=[]
        for i in range(now_page,total_page+1):
            link=re.sub('

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Python抓取极客学院开放数据

Python 是比较美的语言，相见恨晚抓数据的一般步骤首先，锁定目标，也就是确定网站链接的格式。其次，在浏览器中或者在wireshark中尝试抓包，分析数据，主要是利用浏览器的查看源码功能，分析需要抓包的数据的结构特点，确定规律。编写python代码，分析数据，反反复复，得到脚本。我的例子#encoding:utf-8import requestsimport reclass Spi
复制链接

扫一扫

专栏目录

NealKafuly CSDN认证博客专家 CSDN认证企业博客

码龄9年

35: 原创

29万+: 周排名

74万+: 总排名

4万+: 访问

: 等级

837: 积分

1: 粉丝

5: 获赞

6: 评论

5: 收藏

私信

关注

热门文章

分类专栏

android 30篇
ubuntu 5篇
git 1篇
python 1篇
算法 3篇
java 2篇

最新评论

Ubuntu16.0.4下安装npm和cnpm
lukaifang: 微信是网页版微信，bantu用不了
Android Studio 更新失败
Haunis: 赞，此方法好使。作者要把这个方法的具体含义说下就更好了
Android Studio 更新失败
Gerry_Liang: 感谢完美解决！
ubuntu16.0.4 安装32位库出错，解决
爱炒饭: 我的ubuntu16.0.4 64位系统运行上面命令报错 [code=java] sudo apt-get install libz1:i386 libncurses5:i386 libbz2-1.0:i386 libstdc++6:i386 正在读取软件包列表... 完成正在分析软件包的依赖关系树正在读取状态信息... 完成注意，选中 'zlib1g:i386' 而非 'libz1:i386' libncurses5:i386 已经是最新版 (6.0+20160213-1ubuntu1)。 libncurses5:i386 已设置为手动安装。 zlib1g:i386 已经是最新版 (1:1.2.8.dfsg-2ubuntu4.1)。 zlib1g:i386 已设置为手动安装。有一些软件包无法被安装。如果您用的是 unstable 发行版，这也许是因为系统无法达到您要求的状态造成的。该版本中可能会有一些您需要的软件包尚未被创建或是它们已被从新到(Incoming)目录移出。下列信息可能会对解决问题有所帮助：下列软件包有未满足的依赖关系： bind9-host : 依赖: libbind9-140 (= 1:9.10.3.dfsg.P4-8ubuntu1.7) 但是它将不会被安装依赖: libdns162 (= 1:9.10.3.dfsg.P4-8ubuntu1.7) 但是它将不会被安装依赖: libisc160 (= 1:9.10.3.dfsg.P4-8ubuntu1.7) 但是它将不会被安装依赖: libisccfg140 (= 1:9.10.3.dfsg.P4-8ubuntu1.7) 但是它将不会被安装 imagemagick : 依赖: imagemagick-6.q16 (= 8:6.8.9.9-7ubuntu5.9) liblouisutdml-bin : 依赖: liblouisutdml6 但是它将不会被安装 libsane : 依赖: libgphoto2-6 (>= 2.5.9) 但是它将不会被安装 libstdc++6:i386 : 依赖: gcc-5-base:i386 (= 5.3.1-14ubun
Python抓取极客学院开放数据
码莎拉蒂 .: 牛逼

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

目录

分类专栏

android 30篇
ubuntu 5篇
git 1篇
python 1篇
算法 3篇
java 2篇

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。