第一阶段 python语法与 爬虫 和 python常见错误 うれしい

python 爬虫学习之旅

这里我们用到 python,和开发环境IDE pycharm。
完整的爬虫包括爬取网页,解析数据,保存数据

重点提要

在这里插入图片描述

最终代码


#引入自定义模块
# from test1 import t1
#
#
# print(t1.add(3,5))
#引入系统模块
import sys
import os
import bs4
import urllib.request
import urllib.error
# from bs4 import beautifulsoup4

def main():
    url="https://movie.douban.com/top250?start=0&filter="
    #1.爬取网页
    datalist=getData(url)
    savepath=".\\豆瓣电影.top250.xls"

    askurl("https://movie.douban.com/explore#!type=movie&tag=%E6%9C%80%E6%96%B0&page_limit=20&page_start=")
    #3.保存数据
    saveData(savepath)



#爬取网页
def getData(url):
        datalist=[]
        for i in range(0,10):#调用获取信息的页面10次 一页25条 这个是左闭右开,实际是【0,10)。所以他会得到1-9
            url=url+str(i*25)
            """
            0代表第一个网页里的25条,9代表第十个网页。
            """
            html=askurl(url)#保存获取到的网页源码。接收。。
    # 2.逐一解析数据
        return datalist
#爬取一个url的信息
def askurl(url):
        headers={"User-Agent":" Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}

        req = urllib.request.Request(url, headers=headers)

        try:
            response=urllib.request.urlopen(req)
            html=response.read().decode("utf-8")
            print(html)
        except urllib.error.URLError as e:
            if hasattr(e,"code"):
                print(e.code)
            if hasattr(e,"reason"):
                print(e.reason)
            return html#返回网页代码





#保存数据
def saveData(savepath):
    print("save...")



#当程序被执行
if __name__ == '__main__':
   main()


python常见错误

1.一直只显示运行成功,啥都不输出。不可原谅,因为忘记了打印。只有打印print,才会输出。

在这里插入图片描述

2.这个会导致NAME XXX has not defined

Python中对错误NameError: name ‘xxx’ is not defined进行总结
在这里插入图片描述

3.Python: 编程遇到的一些问题以及网上解决办法?

Python: 编程遇到的一些问题以及网上解决办法?

4.python常见错误:IndentationError: unexpected indent

【问题】
一个python脚本,本来都运行好好的,然后写了几行代码,而且也都确保每行都对齐了,但是运行的时候,却出现语法错误:IndentationError: unexpectedindent

【解决过程】1.对于此错误,最常见的原因是,的确没有对齐。但是我根据错误提示的行数,去代码中看了下,没啥问题啊。都是用TAB键,对齐好了的,没有不对齐的行数啊。
2.以为是前面的注释的内容影响后面的语句的语法了,所以把前面的注释也删除了。结果还是此语法错误。
3.后来折腾了半天,突然想到了,把当前python脚本的所有字符都显示出来看看有没有啥特殊的字符。当前用的文本编辑器Notepad++,好像有个设置,可以显示所有的字符的。找到了,
在:视图> -> 显示符号 -> 显示空格与制表符

5.python 错误 SyntaxError: invalid character in identifier

在这里插入图片描述

6. line 307, in init elif len(markup) <= 256 and TypeError: object of type ‘NoneType’ has no len()

我真的快吓傻了,这则膜处理,百度上都是蛇魔回答,我都蒙了,快来记录一下,没有笔记记录,真的不行,一定会忘得。
在这里插入图片描述
在这里插入图片描述

7.TypeError: ‘set’ object is not subscriptable

要不就是你用错符号了。比如g={ },写元组,要用( )。
再就是不能索引
A=“l”不能
A=“sdf”可以

8.PermissionError: [Errno 13] Permission denied: ‘はじめまして.xls’

1.你有可能已经打开了这个文件,关闭这个文件即可
2. open 打开一个文件夹(目录),而不是文件

pycharm小技巧必备

1.多行注释CTRL+? 单行注释#
2.data=bytes() 数据转化为二进制包
3 import urllib.parse 解析器,解析出的数据转变为2进制,封装到data数据包里面
4.添加固定信息
在这里插入图片描述
5.装模块
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
上图,import 是搬运模块的意思,
在这里插入图片描述
post方式,我们用data来传达参数,data参数使用bytes字节文件封装进去
URL 了解
链接: https://baike.baidu.com/item/统一资源定位系*统/5937042?fromtitle=URL&fromid=110640&fr=aladdin.
**read ()***读取的信息封存到***response***中,***decode***用于解码,采用***utf-8***方式,使解码不出现乱码。
测试
在这里插入图片描述
在这里插入图片描述

post测试,点击post,Execute代表执行
在这里插入图片描述
在这里插入图片描述

pycharm颜色设定

在这里插入图片描述

异常处理

在这里插入图片描述
在这里插入图片描述
错误类型也可能是其他,多写几个,用逗号分隔·。还有如果链接是死链接,或者确实出现排斥的现象,那么先放过这一个页面,最后通过报错来集中处理。时间1,2秒吧***成功***

状态码

状态码
404找不到
418(我是一个茶壶)对方发现你是一个爬虫

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

打开控制台
如果你的F12是调节亮度的话,Fn+F12
在这里插入图片描述
在这里插入图片描述
[链接: https://editor.csdn.net/md/?articleId=107355677.
](https://editor.csdn.net/md/?articleId=107355677)
下面我们来爬取豆瓣的信息。
[爬虫基础入门爬取网页为什么要 选择requests库 而不是选择urllib库呢?

这是因为requests对于处理网页认证和Cookies时 更加 方便 更加 强大!!!
](https://blog.csdn.net/weixin_43930694/article/details/89963102)
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python是一门强大且易学的编程语言,广泛应用于数据科学、机器学习、Web开发等多个领域。为了帮助大家更好地掌握Python,我们精心整理了一系列Python学习资料,旨在为不同需求的Python学习者提供全方位的学习支持。 本次上传的资料包括以下几部分: 课程资料:这部分资料提供了系统化的Python课程,从Python基础语法到进阶技能,内容涵盖Python的核心知识点。通过学习这些课程,你将建立起坚实的Python基础,为后续的学习和应用打下坚实基础。 学习笔记:在学习过程中,我们整理了丰富的学习笔记,这些笔记包含了重点知识点的总结、实战经验分享以及常见问题的解答。通过阅读这些笔记,你可以随时巩固所学,解决学习中遇到的问题,提高学习效率。 项目实战:理论学习是基础,但真正的掌握需要通过实践来检验。这部分资料提供了多个Python项目实战案例,涵盖Web开发、数据分析、机器学习等领域。通过实际操作这些项目,你将有机会将所学知识应用于实际场景,提升编程实战能力。 其他资料:除了以上内容,我们还整理了一些其他有用的Python学习资料,如教程、视频教程、习题集等。这些资料将帮助你进一步拓展Python技能,满足你不同方向的学习需求。 无论你是初学者还是有一定Python基础的开发者,本系列学习资料都能为你提供宝贵的资源和指导。我们希望通过这些资料,帮助你建立起对Python的全面认知,提升编程技能,实现从入门到精通的跨越。同时,我们也鼓励你在学习的过程中不断实践、探索和创新,将所学知识应用于实际场景,发挥Python的强大潜力。Python是一门强大且易学的编程语言,广泛应用于数据科学、机器学习、Web开发等多个领域。为了帮助大家更好地掌握Python,我们精心整理了一系列Python学习资料,旨在为不同需求的Python学习者提供全方位的学习支持。 本次上传的资料包括以下几部分: 课程资料:这部分资料提供了系统化的Python课程,从Python基础语法到进阶技能,内容涵盖Python的核心知识点。通过学习这些课程,你将建立起坚实的Python基础,为后续的学习和应用打下坚实基础。 学习笔记:在学习过程中,我们整理了丰富的学习笔记,这些笔记包含了重点知识点的总结、实战经验分享以及常见问题的解答。通过阅读这些笔记,你可以随时巩固所学,解决学习中遇到的问题,提高学习效率。 项目实战:理论学习是基础,但真正的掌握需要通过实践来检验。这部分资料提供了多个Python项目实战案例,涵盖Web开发、数据分析、机器学习等领域。通过实际操作这些项目,你将有机会将所学知识应用于实际场景,提升编程实战能力。 其他资料:除了以上内容,我们还整理了一些其他有用的Python学习资料,如教程、视频教程、习题集等。这些资料将帮助你进一步拓展Python技能,满足你不同方向的学习需求。 无论你是初学者还是有一定Python基础的开发者,本系列学习资料都能为你提供宝贵的资源和指导。我们希望通过这些资料,帮助你建立起对Python的全面认知,提升编程技能,实现从入门到精通的跨越。同时,我们也鼓励你在学习的过程中不断实践、探索和创新,将所学知识应用于实际场景,发挥Python的强大潜力。Python是一门强大且易学的编程语言,广泛应用于数据科学、机器学习、Web开发等多个领域。为了帮助大家更好地掌握Python,我们精心整理了一系列Python学习资料,旨在为不同需求的Python学习者提供全方位的学习支持。 本次上传的资料包括以下几部分: 课程资料:这部分资料提供了系统化的Python课程,从Python基础语法到进阶技能,内容涵盖Python的核心知识点。通过学习这些课程,你将建立起坚实的Python基础,为后续的学习和应用打下坚实基础。 学习笔记:在学习过程中,我们整理了丰富的学习笔记,这些笔记包含了重点知识点的总结、实战经验分享以及常见问题的解答。通过阅读这些笔记,你可以随时巩固所学,解决学习中遇到的问题,提高学习效率。 项目实战:理论学习是基础,但真正的掌握需要通过实践来检验。这部分资料提供了多个Python项目实战案例,涵盖Web开发、数据分析、机器学习等领域。通过实际操作这些项目,你将有机会将所学知识应用于实际场景,提升编程实战能力。 其他资料:除了以上内容,我们还整理了一些其他有用的Python学习资料,如教程、视频教程、习题集等。这些资料将帮助你进一步拓展Python技能,满足你不同方向的学习需求。 无论你是初学者还是有一定Python基础的开发者,本系列学习资料都能为你提供宝贵的资源和指导。我们希望通过这些资料,帮助你建立起对Python的全面认知,提升编程技能,实现从入门到精通的跨越。同时,我们也鼓励你在学习的过程中不断实践
解锁网络数据的宝藏:Python爬虫工具与教程集合 一、探索网络信息的无限宝藏 在互联网的海洋中,蕴藏着海量的有价值信息。如何合法、高效地获取这些信息?Python爬虫工具与教程为您揭开这一神秘面纱。通过这些资源,您可以轻松地爬取网站信息,提取所需内容,为各种应用场景提供强大的数据支持。 二、资源亮点 工具齐全:提供一系列功能强大的Python爬虫工具,满足您不同场景下的需求。 教程详尽:配套的Python爬虫教程,从基础到进阶,让您逐步掌握爬虫的核心技术。 合法合规:严格遵守法律法规和网站使用协议,确保采集行为合法,尊重网站权益。 实战项目:结合实际案例,让您在实践中掌握Python爬虫的运用,真正做到学以致用。 三、适用人群 无论您是数据分析师、网络开发者还是对Python爬虫感兴趣的爱好者,这些资源都将为您的学习和实践提供有力的支持。 四、使用建议 按需选择工具与教程:根据实际需求选择合适的工具和教程,确保学习与实践的有效性。 遵守法律法规与协议:在使用这些资源进行爬取活动时,务必遵守相关法律法规和网站的使用协议。 持续学习与更新:随着网络技术的不断进步,Python爬虫技术也在不断发展。建议您持续关注相关动态,提升自己的技能水平。 五、安全与责任 尊重网站权益:避免对目标网站的正常运行造成干扰或损害,合理使用资源。 隐私保护:在采集数据时,严格遵守隐私保护法规,不泄露或滥用用户个人信息。 风险防范:了解并应对潜在的网络威胁,采取相应措施降低风险。 感谢您选择我们的Python爬虫工具与教程集合!让我们一起挖掘网络信息的宝藏,为您的工作和研究注入新的活力!请务必遵守法律法规和网站使用协议,共同维护网络数据的合法采集与利用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值