学期开始,老师就把项目任务布置下来了。
虽然没有任何JavaScript基础,但是可以一点一点慢慢学啊。
学,就硬学,就使劲学。
—————————————————————————————————————————————
(手动分割)
JavaScript——初体验
看了示例写出来了第一段稍微能见得人的代码
跑一跑
可以说是一个不错的开端了。
—————————————————————————————————————————————
JavaScript——mysql数据库的建立
—————————————————————————————————————————————
JavaScript——开始爬虫项目
虽然说老师有给出爬虫项目的示例,但是代码再怎么还是得自己再敲一遍再多研究几遍
首先我们得引入几个包
现在很多网站都有防止恶意爬虫的设置,所以我们得防止自己的爬虫被屏蔽掉
接着,将request模块异步fetch url
然后就可以开始准备获取种子页面、找到新闻的url、读取新闻页面了。
接着,开始在新闻页面里找自己想要的东西。
关键词、标题、作者、发布时间、正文,我全都要
最后,在写入数据库前,先检查下爬下来的新闻有没有稀奇古怪的东西混进去了,所以我们把它输出一下
检查完,一切正常,就可以放心地入库了
JavaScript&html——网站搭建
配套的clearlove.html
—————————————————————————————————————————————
爬虫——爬,就硬爬
“标题、关键词、作者、发布时间、来源,我全都要!”
打开网页,点进新闻页面,查看网页源代码
关键词 get
发布时间、作者、来源 get
摘要 get
正文 get
代码 完成!
—————————————————————————————————————————————
爬虫————漫漫长征路
为什么说他是长征路呢?
一是弄这个项目的时间超长(当然没有长征长)
二是条件艰苦,疫情期间,学校不能回,只能在家里上网课。家里有个问题,网不行。
三是,翻山越岭过草地
—————————————————————————————————————————————
长征——翻山越岭
翻什么山?越什么岭?
就是下面这个玩意儿
它有一个响亮的名字
正则表达式
做项目时候的进度:第七章之前
那个时候,第十章的样子,跟下图差不多
怎么办呢?
学,就硬学
学成,完成这最后一块拼图
—————————————————————————————————————————————
长征——过草地
其实最开始的时候,我是不想去爬中国新闻网的。
最开始我爬的是新浪新闻
刚开始做的时候呢,数据库还是写得进去的
但是,到我开始写博客的时候
莫名其妙的报错增加了?
我小心翼翼地点开报错的那个位置
这不是mysql里面的某个文件吗?
吓得我赶紧去请教了专业人士
。。。。。。。。。
于是转战新浪体育
看着这不断往下打印的文字,我露出了欢快的笑容
然而,快乐总是短暂的
奇怪的报错又来了
心态稳住,不能崩,都走到这一步了,胜利不远了
—————————————————————————————————————————————
长征———成功会师
最后,我还是选择自己去爬中国新闻网(过程及代码如上文)
入库
搭建
热词搜索
(当下热点)
网页展示
—————————————————————————————————————————————
写在最后:
可能是因为刚开始接触的原因吧,啥也不懂,找到个网站就开始爬,看都不怎么仔细看一眼。当我最开始拿着新浪的网页源代码去找专业人士求助的时候,她的反应如下图
这也给自己以后编程积累了一个经验吧——代码一定要清晰,结构一定要好,绝对不能乱七八糟写成一团,不仅要给自己今后查错考虑,还得为读代码的某位“幸运儿”考虑。
最后引用一位著名赛事解说的话:
“翻过这座山,就是属于你们的世界!”