数据采集知识梳理

目录

 Python知识梳理

1.环境安装与验证

2.搭建与部署Pycharm

3.进行简单的写入练习及知识了解

爬虫知识梳理

1.进行网页图片采集

2.进行豆瓣网参数传递

3.进行豆瓣网多参数传递

4.拓展知识

​编辑

 Python知识梳理

1.环境安装与验证

安装Python环境,并去CMD里输入“Python”验证是否能正常进入环境

2.搭建与部署Pycharm

进入官网安装Pycharm,验证部署是否完成

3.进行简单的写入练习及知识了解

基本语法:了解Python的基本语法,包括变量、数据类型、条件语句、循环语句和函数定义等。

数据类型:Python有许多内置的数据类型,如整数(int)、浮点数(float)、字符串(str)、列表(list)、元组(tuple)、字典(dict)和集合(set)等。了解每种数据类型的特点、操作和常见用法。

控制流:掌握条件语句(if-else语句)和循环语句(for循环和while循环)。了解如何使用条件和循环来控制程序的执行流程。

函数:学习如何定义和调用函数。了解函数的参数传递方式(值传递和引用传递)、函数返回值和作用域等概念。

模块和包:了解Python模块和包的概念,学习如何导入、使用和创建模块和包。掌握常用的内置模块和第三方库的使用方法。

爬虫知识梳理

1.进行网页图片采集

进入图片网页并查找请求头,在Pycharm里安装requests库。导入requests包后获取图片地址,再使用requests加载图片,设置好图片名与格式,并用二进制方式写入图片,执行成功后获取图片。

2.进行豆瓣网参数传递

进入网页获取请求头,在Pycharm里导入requests包,定制请求头后,输入网页地址,拼接出搜索功能,定义要传递的参数,设置好请求头、以及传递参数,打印地址,运行程序后,进入网址即可。

3.进行豆瓣网多参数传递

获取地址中的请求头,导入requests包,定制好请求头,输入网页地址后,定义多参数,设置请求方式、请求头、传递参数,打印状态码,运行程序,执行后进入网址。

4.拓展知识

数据采集:了解如何发送HTTP请求,以获取网页的内容。学习使用Python的Requests库或其他类似的库发送GET请求和POST请求,处理Cookie和Session等。

数据处理:爬取的数据通常需要进一步处理和清洗,以便进行分析和存储。学习使用Python的数据处理和分析库(如Pandas和NumPy),以及正则表达式等工具。

动态网页爬取:有些网页内容是通过JavaScript动态加载的,这时候需要使用工具中的浏览器引擎(如Selenium和Puppeteer)模拟浏览器行为来获取完整的数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值