Python爬虫的第一次尝试
一直都很想做个像readingstate一样的统计豆瓣数据的网站,拖了大概一年多吧终于打算动手了!今天大致写了个最最最基础的爬虫。
第一次接触python,感觉语法什么的还是很友好的。(毕竟之前用c简直哭
今天主要做了:
- 搭建python环境
- 第一个python程序:helloworld
- 第一个python爬虫
搭建python环境
其实也没什么好搭建的啦。直接去python官网下载最新版本就好。不用像java一样要配那么多环境变量(其实也就三个
anyway安装好之后打开了pythonshell,这玩意儿跟matlab命令行长得一毛一样,太简洁了!相比起来vs和eclipse真是庞大。第一个python程序:helloword
其实可以直接在shell里输print("Hello World!")
就能看到Hello World!
一开始看到网上很多代码写的是print "Hello World!"
但是shell总是报错,后来发现可能是python2用的才是这种写法,而我的python版本是3,所以必须在外面加括号。
写在脚本文件里就是def helloworld(): print("Hello World!") helloworld()
写好之后在helloworld.py所在的文件夹下运行cmd,输入
helloworld.py
运行该脚本文件,就可以看到输出在cmd里的Hello World!
啦!第一个python爬虫
在网上随便找了个程序跑了一下#coding = utf-8 import urllib.parse import urllib.request def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html html = getHtml("http://douban.com/") f = open('out.txt', 'w') print(html, file = f) f.close()
同样也是版本的问题,python2和python3的写法可能会有一些细微的差别,在python2里引包直接是
urllib
就好了,上述代码的全部urllib.request
都用urllib
来代替就好了。
还有就是输出到文件的问题,这个感觉还是跟c很像的,先用open
打开一个文件(python不用申明变量类型真是太方便了!感动!),然后把原来的print(html)
改成print(html, file = f)
就可以输出到文件啦!最后不要忘记用close()
关闭文件。再次说明python2的版本应该写成print>>f, html
,这么说来还是python3和c更像呢。
最后说一下~第一次用markdown,真厉害!感觉还有很多很多东西要学~明天继续~