一个小项目(爬虫)的诞生全过程

下面是一个小爬虫的整个诞生过程

step 1

在本地使用git管理工具:

mkdir Douban_Movie#创建并进入该目录下
git init#初始化
vim readme.txt#在本文件中写入相关的必要信息
git add readme.txt#添加
git commit -m ‘add comment’#提交到本地

step 2

在github上新建一个仓库Douban_Movie后

git remote add origin git@github.com:icheli/Douban_Moive.git#或者git remote add origin https://github.com/ichenli/Douban_Movie.git   首次交互要建立连接
git push -u origin master#提交到github上,下载用git pull origin master

至此我们就知道如何将代码提交到github上了,下面我们所要做的就是编程了。

step3

在本地编写程序之后就可以提交到本地git和github的服务器上了

git add movie_crawler.py
git commit -m "this is the crawler"
git remote add origin git@git.com:ichenli/ZhiHu_movie.git#或者git remote add origin https://github.com/ichenli/ZhiHu_Movie.git(即github上项目的链接)
<pre name="code" class="python">git push -u origin master
 

有关程序的部分,已经放到github上了,程序其实很简单,就是爬取了豆瓣上按类别的电影排序,爬取了其中前34个类别,例如爱情,喜剧,动画等多种类别的电影,并依次获取电影的ID,名称,上映年份,类型,片长,分数,评价人数和剧情简介。

step4

python3使用mysql数据库需要pymysql包,据说还可以使用mysql-connector,但是没用过,在https://pypi.python.org/pypi/PyMySQL3 下载pymysql包,cd进入目录下

python3 setup.py install#安装,好像需要管理员权限

若在python3中能导入pymysql包即代表成功,成功后就可以继续编程啦!



:程序已经上传到github上啦,https://github.com/ichenli/Douban_Movie,大家如果没有安装数据库或者不想涉及数据库,稍加修改即可运行,代码很简单。


大家有什么不懂的或者我哪儿写错了都欢迎留言!
















  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值