py爬虫练习ing
文章平均质量分 71
练习
抄代码抄错的小牛马
爬虫入门级选手
展开
-
python+scrapy框架之豆瓣电影
在指定的文件路径下建立项目如下:注意:我们在创建文件的时候,要进入到其spiders目录下进行。我之前是直接复制它提示的指令去创建,后面却出现问题了。半天都没解决,其报错如下:创建文件:在pycharm中查看:对于scrapy的详解: scrapy文档豆瓣TOP250是一个练手学习的好地方。。。整体框架:一个scrapy有很多个文件,我们只需编写我们需要的代码文件即可,其他不动它就可scrapy对于多页请求,它专门有个方法:start_requests Scrapy 中的起始请求原创 2022-06-13 10:12:57 · 946 阅读 · 0 评论 -
python—flask—echarts数据可视化简单练习
B站学习记录:echarts官网:https://echarts.apache.org/examples/zh/index.html官网上有很多可视化例子:pyHTML最终效果:拜~~原创 2022-06-12 22:54:42 · 327 阅读 · 0 评论 -
贝壳新房数据获取--词云处理--requests
目录目标网址分析目标网址大体结构查看分页数据获取与保存学习内容:获取重庆贝壳新房房价数据,CSV形式保存在本地,解决Excel打开乱码问题,并对其数据进行简单词云处理........ 目标网址分析 目标网址 【重庆楼盘_重庆新楼盘_重庆新房房价】信息网-重庆贝壳新房 大体结构 查看后得到:提取结构: 查看分页 发现分页很规则,,,,,,,,,# https://cq.fang.ke.com/loupan/p.原创 2022-05-18 23:52:17 · 319 阅读 · 1 评论 -
初识Tkinter,学习记录
呼噜呼噜~~~学习记录:tkinter 是 Python 编程语言中描述用于构建图形用户界面 。一、初识Tkinter 第一个tkinter 程序 from tkinter import *window = Tk() # 调用Tk()创建主窗口window.config(background='lavender') # 可以自己设置窗口的背景颜色window.title('我学Python') # 设置标题window.geometry('800x700+1000...原创 2022-03-05 21:56:37 · 754 阅读 · 1 评论 -
艺恩票房榜—json数据获取—保存在本地
学习记录:哈喽,没几天就要要开学咯,嘿嘿~~一、目标网址分析艺恩娱数, 进入网址,现在想要对这些内容进行获取,并保存在本地。我们右键网页源代码:发现是上图这样。。。那就先来到下图,看能不能找到数据:刷新一下找找,在这里就我们想要的数据了。继续,我们在返回给我们的数据复制出来看看:下面json数据:再就是,post请求和参数的添加参数:好了,下面是代码部分:二、代码实现"""2022年CSDN:抄...原创 2022-02-06 11:38:34 · 3790 阅读 · 14 评论 -
豆瓣电影ajax数据获取并保存到本地
目录一、目标网址分析二、代码实现呼噜呼噜~~学习记录:一、目标网址分析豆瓣电影排行榜,对分类榜单的部分数据获取随便点进去一个类型可以发现电影信息在外面鼠标向下滑动后才慢慢的加载出来:所以可以进到如下页面进行查看。对其请求网址查看:再:再多找几个类型的网址后:某一个类型的网址https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&act...原创 2022-02-04 22:07:22 · 896 阅读 · 4 评论 -
4K壁纸多页下载及防盗链的处理
目录一、目标网址二、分析网址三、编写代码一、目标网址高清电脑桌面壁纸,4K动漫壁纸,高端壁纸图片大全 - 极品桌面,选择美食类的壁纸的下载:4K美食壁纸_4K美食电脑桌面壁纸_4K美食高清壁纸图片_高端极品桌面二、分析网址要下载多页的图片,我们就可以去看看每一页的网址有什么规律。# https://www.igdcc.com/4Kmeishi/index.html 1# https://www.igdcc.com/4Kmeishi/index_2.htm...原创 2022-01-29 13:46:07 · 840 阅读 · 0 评论 -
爬取一部小说并写入txt
学习记录:这个爬的太慢了~~~慢,慢,慢........网址:斗罗大陆5重生唐三最新章节_斗罗大陆5重生唐三全文免费阅读-笔趣阁找到正文:代码:"""2022年CSDN:抄代码抄错的小牛马"""import requestsfrom lxml import etreedef get_url(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebK.原创 2022-01-26 21:43:49 · 979 阅读 · 2 评论