Python学习日记.0

最新推荐文章于 2022-10-23 12:21:36 发布

tacbob

最新推荐文章于 2022-10-23 12:21:36 发布

阅读量367

点赞数

分类专栏：学习日记文章标签： python 爬虫

本文链接：https://blog.csdn.net/tacbob/article/details/51348083

版权

学习日记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Python爬虫的第一次尝试

一直都很想做个像readingstate一样的统计豆瓣数据的网站，拖了大概一年多吧终于打算动手了！今天大致写了个最最最基础的爬虫。

第一次接触python，感觉语法什么的还是很友好的。（毕竟之前用c简直哭
今天主要做了：

搭建python环境
第一个python程序：helloworld
第一个python爬虫

搭建python环境
其实也没什么好搭建的啦。直接去python官网下载最新版本就好。不用像java一样要配那么多环境变量（其实也就三个
anyway安装好之后打开了pythonshell，这玩意儿跟matlab命令行长得一毛一样，太简洁了！相比起来vs和eclipse真是庞大。
第一个python程序：helloword
其实可以直接在shell里输print("Hello World!") 就能看到Hello World!
一开始看到网上很多代码写的是print "Hello World!" 但是shell总是报错，后来发现可能是python2用的才是这种写法，而我的python版本是3，所以必须在外面加括号。
写在脚本文件里就是
```
def helloworld():
    print("Hello World!")
helloworld()
```
写好之后在helloworld.py所在的文件夹下运行cmd，输入helloworld.py 运行该脚本文件，就可以看到输出在cmd里的Hello World! 啦！
第一个python爬虫
在网上随便找了个程序跑了一下
```
#coding = utf-8


import urllib.parse
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://douban.com/")

f = open('out.txt', 'w')
print(html, file = f)
f.close()
```
同样也是版本的问题，python2和python3的写法可能会有一些细微的差别，在python2里引包直接是urllib就好了，上述代码的全部urllib.request都用urllib来代替就好了。
还有就是输出到文件的问题，这个感觉还是跟c很像的，先用open 打开一个文件（python不用申明变量类型真是太方便了！感动！），然后把原来的print(html)改成print(html, file = f)就可以输出到文件啦！最后不要忘记用close()关闭文件。再次说明python2的版本应该写成print>>f, html ，这么说来还是python3和c更像呢。

最后说一下~第一次用markdown，真厉害！感觉还有很多很多东西要学~明天继续~

tacbob

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习日记.0

Python爬虫的第一次尝试一直都很想做个像readingstate一样的统计豆瓣数据的网站，拖了大概一年多吧终于打算动手了！今天大致写了个最最最基础的爬虫。第一次接触python，感觉语法什么的还是很友好的。（毕竟之前用c简直哭今天主要做了：搭建python环境第一个python程序：helloworld第一个python爬虫搭建python环境其实也没什么好搭建的啦。直接去pyth
复制链接

扫一扫