爬虫——requests模块

最新推荐文章于 2023-06-26 15:55:25 发布

G_小武

最新推荐文章于 2023-06-26 15:55:25 发布

阅读量117

点赞数 1

分类专栏： spider

本文链接：https://blog.csdn.net/weixin_35708013/article/details/100705738

版权

spider 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

字符串格式化的一种方式

"上{}善若水".format(1)  输出：上1善若水

字典推导式与列表推导式

cookies="anonymid=j3jxk555-nrn0wh; _r01_=1; _ga=GA1.2.1274811859.1497951251; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; ln_uact=mr_mao_hacker@163.com; depovince=BJ; jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; JSESSIONID=abcI6TfWH4N4t_aWJnvdw; ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1; ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20171230/1635/main_JQzq_ae7b0000a8791986.jpg; t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9; id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0"
cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}

[self.url_temp.format(i * 50) for i in range(1000)]
[i for i in range 5]  # 输出 [0,1,2,3,4]

item["img_list"] = self.get_img_list(item["href"],[])
itemp["img_list"] = [requests.utils.unquote(i).split("src=")[-1] for i in item["img_list"]]
# requests.utils.unquote(i)是对URL进行解码