学习笔记
文章平均质量分 81
以介绍项目结果与设计为主,长的像教程。可能含有大量代码,可能含有新知识点的总结说明。
憧憬少
个人hexo博客:https://yxchangingself.xyz/
展开
-
python爬虫解析库BeautifulSoup速查
为了方便使用,将BeautifulSoup库常用的接口写到一起。总结内容来源:《python3网络爬虫开发实战》崔庆才导入与解析from bs4 import Beatsoup = BeautifulSoup(response.text,'lxml')节点选择器提取属性获取到的是第一个标签soup.title.string:获取title标签的文本内容soup.title.n...原创 2019-09-10 19:08:00 · 393 阅读 · 1 评论 -
c++实现的简易倒排索引
前言智能信息检索这门课程有个上机作业,题目是“实现倒排索引”。用到了以前没有学的STL中的vector。个人博客本文传送门勿抄袭代码,代码仅供参考。转载注明出处倒排索引简介为了从文档集(collection)中检索出想要的结果,首先要将文档集中的每个词项(term)建立索引,以确定词项所在的文档(document)的id,从而返回根据关键字查询的结果。倒排索引的格式大概是下图这样(代...原创 2019-04-04 22:05:08 · 3628 阅读 · 2 评论 -
python爬虫学习笔记5爬虫类结构优化
前言打算全部以cookie来登陆,而不依赖于session(因为听组长说session没cookie快,而且我想学些新东西而不是翻来覆去地在舒适区鼓捣)。弄了几天终于弄出来个代码不那么混乱的爬虫类了,更新一下博文来总结一下。代码在我github的spider库里面。前文传送门:python爬虫学习笔记1一个简单的爬虫python爬虫学习笔记2模拟登录与数据库python爬虫学...原创 2019-04-21 14:59:00 · 471 阅读 · 1 评论 -
python爬虫学习笔记4模拟登录函数的优化
前言前面写的代码虽然完成了爬取的功能,但是过于凌乱,于是打算重构一遍。首先从登陆开始。前文传送门:python爬虫学习笔记1一个简单的爬虫python爬虫学习笔记2模拟登录与数据库python爬虫学习笔记3封装爬虫类个人博客本文传送门:python爬虫学习笔记4模拟登录函数的优化改进前的代码面向过程这是第一次写的登录函数,获取登录信息和登录本身是放在一起的。def lo...原创 2019-04-21 14:54:09 · 270 阅读 · 1 评论 -
python爬虫学习笔记3封装爬虫类
前言在完成了基本的爬取任务之后,接到了将其封装为一个爬虫类的任务个人博客传送门:python爬虫学习笔记1一个简单的爬虫python爬虫学习笔记2模拟登录与数据库由于本文比较长,建议前往我个人博客阅读有侧栏目录的版本:python爬虫学习笔记3封装爬虫类这篇和前面两篇一样,是按照时间记录的。转载注明出处。任务介绍1、尝试不使用session去进行爬取,最好能将cookie...原创 2019-04-21 14:47:55 · 1682 阅读 · 1 评论 -
python爬虫学习笔记2模拟登录与数据库
前言为了加入学校里面一个技术小组,我接受了写一个爬取学校网站通知公告的任务。这个任务比以前写的爬虫更难的地方在于,需要模拟登录才能获得页面,以及将得到的数据存入数据库。本文按照日期来记录我完成任务的过程,然后再整理一遍全部代码。读者可以通过下方传送门去我个人博客阅读,这样通过侧栏目录跳转阅读。不介绍库的安装。对爬取的网站地址等内容进行了一些“打码处理”。个人博客传送门:爬虫学习笔记1一...原创 2019-03-13 20:58:15 · 693 阅读 · 1 评论 -
python爬虫学习笔记1
前言我的个人博客内的这篇文章的传送门学了python语法之后在b站搜索练手的小项目,发现了这个视频:Python实用练手小项目(超简单)视频里面讲解了一个爬取图片网站图片的小爬虫。后面用到了我还没学的数据库,不过前面的部分是已经学了的,于是我就打算写一个不用数据库的,爬取某个盗版小说内容的爬虫。声明:本人不会将得到的小说内容作任何商业用途,也请阅读此文章的各位读者遵纪守法,此文章只用作学习...原创 2019-02-08 21:53:34 · 157 阅读 · 0 评论