一个小项目（爬虫）的诞生全过程

最新推荐文章于 2024-07-20 14:53:58 发布

阿里贝尔

最新推荐文章于 2024-07-20 14:53:58 发布

阅读量3.1k

点赞数

分类专栏：编程 Linux

本文链接：https://blog.csdn.net/ali197294332/article/details/51584767

版权

编程同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

Linux

8 篇文章 0 订阅

订阅专栏

下面是一个小爬虫的整个诞生过程

step 1

在本地使用git管理工具：

mkdir Douban_Movie#创建并进入该目录下
git init#初始化
vim readme.txt#在本文件中写入相关的必要信息
git add readme.txt#添加
git commit -m ‘add comment’#提交到本地

step 2

在github上新建一个仓库Douban_Movie后

git remote add origin git@github.com:icheli/Douban_Moive.git#或者git remote add origin https://github.com/ichenli/Douban_Movie.git   首次交互要建立连接
git push -u origin master#提交到github上，下载用git pull origin master

至此我们就知道如何将代码提交到github上了，下面我们所要做的就是编程了。

step3

在本地编写程序之后就可以提交到本地git和github的服务器上了

git add movie_crawler.py
git commit -m "this is the crawler"
git remote add origin git@git.com:ichenli/ZhiHu_movie.git#或者git remote add origin https://github.com/ichenli/ZhiHu_Movie.git（即github上项目的链接）
<pre name="code" class="python">git push -u origin master

有关程序的部分，已经放到github上了，程序其实很简单，就是爬取了豆瓣上按类别的电影排序，爬取了其中前34个类别，例如爱情，喜剧，动画等多种类别的电影，并依次获取电影的ID，名称，上映年份，类型，片长，分数，评价人数和剧情简介。

step4

python3使用mysql数据库需要pymysql包，据说还可以使用mysql-connector，但是没用过，在https://pypi.python.org/pypi/PyMySQL3 下载pymysql包，cd进入目录下

python3 setup.py install#安装，好像需要管理员权限

若在python3中能导入pymysql包即代表成功，成功后就可以继续编程啦！

注：程序已经上传到github上啦，https://github.com/ichenli/Douban_Movie，大家如果没有安装数据库或者不想涉及数据库，稍加修改即可运行，代码很简单。

大家有什么不懂的或者我哪儿写错了都欢迎留言！

阿里贝尔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录