web编程——爬虫

学期开始,老师就把项目任务布置下来了。
在这里插入图片描述
虽然没有任何JavaScript基础,但是可以一点一点慢慢学啊。
在这里插入图片描述

学,就硬学,就使劲学。
—————————————————————————————————————————————
(手动分割)
JavaScript——初体验
在这里插入图片描述
看了示例写出来了第一段稍微能见得人的代码
在这里插入图片描述
跑一跑
在这里插入图片描述
可以说是一个不错的开端了。
—————————————————————————————————————————————
JavaScript——mysql数据库的建立
在这里插入图片描述
—————————————————————————————————————————————
JavaScript——开始爬虫项目
虽然说老师有给出爬虫项目的示例,但是代码再怎么还是得自己再敲一遍再多研究几遍
首先我们得引入几个包
在这里插入图片描述

现在很多网站都有防止恶意爬虫的设置,所以我们得防止自己的爬虫被屏蔽掉
在这里插入图片描述
接着,将request模块异步fetch url
在这里插入图片描述

然后就可以开始准备获取种子页面、找到新闻的url、读取新闻页面了。
在这里插入图片描述
接着,开始在新闻页面里找自己想要的东西。
关键词、标题、作者、发布时间、正文,我全都要
在这里插入图片描述
在这里插入图片描述
最后,在写入数据库前,先检查下爬下来的新闻有没有稀奇古怪的东西混进去了,所以我们把它输出一下在这里插入图片描述
检查完,一切正常,就可以放心地入库了
在这里插入图片描述


JavaScript&html——网站搭建
在这里插入图片描述
配套的clearlove.html
在这里插入图片描述
—————————————————————————————————————————————
爬虫——爬,就硬爬
“标题、关键词、作者、发布时间、来源,我全都要!”
打开网页,点进新闻页面,查看网页源代码
在这里插入图片描述
关键词 get
在这里插入图片描述
发布时间、作者、来源 get
在这里插入图片描述
摘要 get
在这里插入图片描述
正文 get
在这里插入图片描述
代码 完成!
—————————————————————————————————————————————
爬虫————漫漫长征路
为什么说他是长征路呢?
一是弄这个项目的时间超长(当然没有长征长)
二是条件艰苦,疫情期间,学校不能回,只能在家里上网课。家里有个问题,网不行。
三是,翻山越岭过草地
—————————————————————————————————————————————
长征——翻山越岭
翻什么山?越什么岭?
就是下面这个玩意儿
在这里插入图片描述
它有一个响亮的名字
正则表达式
做项目时候的进度:第七章之前

在这里插入图片描述

那个时候,第十章的样子,跟下图差不多
在这里插入图片描述
怎么办呢?
在这里插入图片描述

学,就硬学
在这里插入图片描述
学成,完成这最后一块拼图
—————————————————————————————————————————————
长征——过草地
其实最开始的时候,我是不想去爬中国新闻网的。
在这里插入图片描述
最开始我爬的是新浪新闻
刚开始做的时候呢,数据库还是写得进去的
但是,到我开始写博客的时候
在这里插入图片描述
莫名其妙的报错增加了?
我小心翼翼地点开报错的那个位置
在这里插入图片描述
这不是mysql里面的某个文件吗?
吓得我赶紧去请教了专业人士
在这里插入图片描述
。。。。。。。。。
于是转战新浪体育
在这里插入图片描述
看着这不断往下打印的文字,我露出了欢快的笑容
在这里插入图片描述
然而,快乐总是短暂的
奇怪的报错又来了
在这里插入图片描述
心态稳住,不能崩,都走到这一步了,胜利不远了
—————————————————————————————————————————————
长征———成功会师
最后,我还是选择自己去爬中国新闻网(过程及代码如上文)
入库
搭建
热词搜索
在这里插入图片描述
(当下热点)
在这里插入图片描述
网页展示

—————————————————————————————————————————————
写在最后:
可能是因为刚开始接触的原因吧,啥也不懂,找到个网站就开始爬,看都不怎么仔细看一眼。当我最开始拿着新浪的网页源代码去找专业人士求助的时候,她的反应如下图
在这里插入图片描述
这也给自己以后编程积累了一个经验吧——代码一定要清晰,结构一定要好,绝对不能乱七八糟写成一团,不仅要给自己今后查错考虑,还得为读代码的某位“幸运儿”考虑。
最后引用一位著名赛事解说的话:
“翻过这座山,就是属于你们的世界!”

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值