1:反思部分
之前上学期也是看过一点点爬虫的东西,然后时间太久了也基本哪里学的又还给哪里了。然后这两周的时间被班主任的要求下开始一点一点接触爬虫,开始的时候觉的很害怕。可能是因为我这个人的性格,对于未接触过的事物总有一些莫名的恐惧感,而且之前做东西总习惯了旁边有个大佬带着,有什么问题找大佬就行了,所以独立做东西的能力确实十分欠缺,做完了一项工作之后对于整个项目的理解并不是很深刻。之前大数据分组的时候xx同学也说一个人当领导做事情和在别人手下做事情的感觉是不一样的。虽然突然独立一个人去完成某项任务很艰巨,这个过程也难免会浪费很多时间,但是当独立一个人完成一个任务的时候那种成就感是十分舒服的。就像这次的爬虫一样,大概一共花了一整天的时间就给做完了。虽然走了很多弯路,但是一天的时间就给做完了也是让我自己觉得很厉害了。
总结:做事情要下定决心,给自己一个deadline。尽量所有的任务都自己完成才能有能力的提升。
2:程序部分
整个程序是由两个部分组成的,第一次很自以为是的做了一个手动输入股票代码号爬取单支股票所有的数据的程序,以为已经很好了。然后交给班主任的时候才知道既然要做爬虫数据就是要越多越好。所以第二天,也就是今天中午给自己定目标中午不修改完不给睡午觉。。然后就很快的就改好了。内心本来是不是很想在一个已经做好的程序上进行改动的。。。。
(1)getcode.py是获取网易财经上某一部分所有的股票代码
# -*- coding: utf-8 -*-
"""
Created on Tue Oct 31 19:51:25 2017
@author: Administrator
"""
import urllib.request
from bs4 import BeautifulSoup
import urllib.parse
class Spider(object):
def __init__(self):
self.user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
self.headers = {
'User-Agent': self.user_agent}
def getcode(self,url):
try:
request=urllib.request.Request(url,headers=self.headers)
response=urllib.request.urlopen(request)
data=response.read()
soup = BeautifulSoup(data, 'html.parser', from_encoding='utf-8')
links = soup.find_all('table',class_='fn_cm_table')
codes0=[]
str2=[]
for link in links:
codes0.append(link.get_text())
str0=codes0[0].split(