9highlights for day 12 of Python

最新推荐文章于 2019-08-22 21:59:52 发布

Python110

最新推荐文章于 2019-08-22 21:59:52 发布

阅读量147

点赞数 2

分类专栏：代码心得函数递归装饰器英文面向对象集合蟒蛇文章标签： xpath

本文链接：https://blog.csdn.net/Python110/article/details/98780419

版权

代码同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

蟒蛇

19 篇文章 0 订阅

订阅专栏

心得

18 篇文章 0 订阅

订阅专栏

1.同步和异步的区别
同步：顺序执行，如果上一步没执行完则一直等待(阻塞)
异步：无序执行，不需要等待上一步就可以执行下一步

2.url中出现中文需要怎么办

url中不能出现汉字，一般都会经过编码

    # 浏览器为了提升用户体验，会自动解析
    # requests库会自动对汉字做编码

3.xpath的基本用法

匹配文本

获取属性

一个属性多个值需要contains匹配

4.return和yield的区别
return 是函数返回值，当执行到return，后续的逻辑代码不在执行

循环中要返回数据，推荐用yield

它能返回数据，跟return类似

它不会中断循环

返回的是个生成器(generator)，节省内存

5.未知总页数如何采集所有页的基本逻辑
perpage_url = url + f"index_{page}.html"
# 解析每页的图片
root = etree.HTML(cls.get(perpage_url))
imgs = root.xpath("//img/@src")
for img_src in imgs:
img_src = “http:” + img_src if not img_src.startswith(“http”) else img_src
img_name = img_src.split("/")[-1]
big_img_src = img_src.replace("/t/", “/pre/”)
big_img_name = “big_” + img_name
yield img_name, img_src, big_img_name, big_img_src

        if not imgs:
            print("到达最后一页")
            break
        page += 1

6.爬虫解析的数据格式包包括哪些
html\json\string

7.解析数据的手端有哪些?

html: xpath 正则, css , json:, string*)

8.网址拼接的方式有哪些?
# 拼接网址的两种方式
# 1.
# href = “https://www.ivsky.com” + href
# 2.
href = urljoin(url, href)

9.TODO是什么东西
继上次没有写完的地方接着写

Python110

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
9highlights for day 12 of Python

1.同步和异步的区别同步：顺序执行，如果上一步没执行完则一直等待(阻塞)异步：无序执行，不需要等待上一步就可以执行下一步2.url中出现中文需要怎么办url中不能出现汉字，一般都会经过编码 # 浏览器为了提升用户体验，会自动解析 # requests库会自动对汉字做编码3.xpath的基本用法匹配文本获取属性一个属性多个值需要contains匹配4.retur...
复制链接

扫一扫