爬虫
caliph21
这个作者很懒,什么都没留下…
展开
-
Python3小说下载、自动转存为TXT、方便自己使用
Python3小说下载小说下载说明:运行环境:Pycharm2020.2.21.网址:http://www.31xiaoshuo.org/ (大部分小说都能搜索到)2.首页搜索小说,或点开主页中的小说,即打开全部章节,复制网址,如:http://www.31xiaoshuo.org/1/1886/,复制到if __name__ == '__main__': url = 'http://www.31xiaoshuo.org/1/1886/'3.运行如下: /usr/bin/python原创 2020-10-24 21:41:40 · 1076 阅读 · 1 评论 -
Python数据类型 列表、元组、集合、字典的区别和相互转换
#TODO 怎么去{}中的数据t=[5,6,7,9,'a','h']s=set(t)ss=list(s)print(t,s,ss)#TODO:python基本常识:列表和集合之间的转换# ls = [“p”,“p”,“y”,“y”,123] #添加原始列表# nls = set(ls) #列表转换成"集合“,集合的特点:不存在重复元素# print(nls)# ls = list...原创 2020-03-13 21:06:56 · 309 阅读 · 0 评论 -
python 爬虫:链家二手房信息爬取练习
#get 链家二手房信息# import requests #比较好用# res = requests.get('https://bafdidu.com.cn')# res.raise_for_status()import requests,lxml,osfrom bs4 import BeautifulSoupheader = { "Host": 'bj.lianjia.co...原创 2020-03-13 21:00:17 · 638 阅读 · 0 评论 -
python 爬豆瓣TOP250电影练习
未写def,此代码按步执行的,有的只需运行一次,有的需循环执行:多个#print作为测试用的,可参考:步骤:#1. 确定list[page,url]#2. open html,save html.save path in page.#3. for page文件夹 for 每个html 保存 数据:## # 爬## # https://movie.douban.com/top250...原创 2020-03-13 20:50:26 · 415 阅读 · 0 评论 -
python爬虫:requests异常requests.exceptions.ConnectionError原因分析及处理
解决方法:第一种方法:try: response = requests.get(html) 以下其他运行代码...except requests.exceptions.ConnectionError: r.status_code = "Connection refused"第二种原因:request的连接数过多而导致Max retries exceeded在he...原创 2020-03-13 20:25:47 · 28376 阅读 · 2 评论 -
Python 爬漫画网下载实例,但时不时的拒绝,有待改进!!!
#功能:爬取漫画网站的指定图片,基于python#save_img中多个print查找测试出问题的止步地方#用到os,time,random,requests,bs4等函数import requests,os,time,randomfrom bs4 import BeautifulSoupdef get_html(url): # 它可以接收一个url的参数 返回这个url对应的htm...原创 2020-03-12 18:16:08 · 2317 阅读 · 3 评论