【爬虫笔记】第一次写爬虫,爬取新浪新闻网标题

昨晚在网易云课堂上看到了这个爬虫教程,是个基础入门教程,看了几节课,按照示例也去爬了一下新闻标题。
一、课程截图:
  • anaconda里面集成了很多关于python科学计算的第三方库,主要是安装方便,而python是一个编译器,如果不使用anaconda,那么安装起来会比较痛苦,各个库之间的依赖性就很难连接的很好(百度知道)
  • infolite可以方便的找到css的定位,只不过我并没有在chrome商店里找到。
  • chrome监视器,network——>doc的使用:
  • 老师给的demo:
 
二、我自己按照示例写第一个爬虫:
上代码:
  1. #2016-12-31 16:34:05
  1. import requests
  1. from bs4 import BeautifulSoup
  1. res = requests.get('http://news.sina.com.cn/china')
  1. res.encoding = 'utf-8'
 
  1. soup = BeautifulSoup(res.text,'html.parser')
  1. part = soup.select('.news-item  ')
  1. for i in part:
  1.     if len(i.select('h2'))>0:
  1.         news_h2 = i.select('h2')[0].text
  1.         news_time = i.select('.time')[0].text
  1.         news_a = i.select('a')[0]['href']
  1.         print (news_h2)
  1.         print (news_a)
  1.         print (news_time)
  1.         print ('-----------------------------------')
 
  1. # res1 = requests.get('http://jw.dhu.edu.cn')
  1. # res1.encoding = 'utf-8'
  1. #
  1. # soup1 = BeautifulSoup(res1.text,'html.parser')
  1. #
  1. # for i in soup1.select('.fields pr_fields'):
  1. #     if len(i.select('a')) > 0:
  1. #         print ('11')
  1. #         news_number = i.select('.Article_Index').text
  1. #         news_h = i.select('a')[0].text
  1. #         news_href = i.select('href')[0]['href']
  1. #         print (news_number)
  1. #         print (news_h)
  1. #         print (news_href)
说明:没有注释的地方都是没有问题的,但是下面再想爬取教务处主页的时候,出了点小问题,学艺不精,也没能解决掉。
跑一下代码:不同时间运行出来的结果自然不一样
  1. D:\Python27\python.exe F:/网站/爬虫/test.py
  1. 全国铁路预计元旦假期首日发送旅客1008万人次
  1. 12月31日 15:23
  1. -----------------------------------
  1. 深圳休闲娱乐场所将禁止吸烟
  1. 12月31日 14:19
  1. -----------------------------------
  1. 大量内地客户赴香港买保险 业务员:累得想睡觉
  1. 12月31日 14:12
  1. -----------------------------------
  1. 海口火山口现神秘土坡 如旧书堆叠有青花瓷碎片
  1. 12月31日 13:55
  1. -----------------------------------
  1. 大陆封杀55名台湾艺人?台媒:文化部否认
  1. 12月31日 13:44
  1. -----------------------------------
  1. 南非官员赴台北:发言人叫嚣试行“平行外交”
  1. 12月31日 13:19
  1. -----------------------------------
  1. 许勤任深圳市委书记 曾被称最具高科技知识市长
  1. 12月31日 12:15
  1. -----------------------------------
  1. 我国明日将对外发布南沙三大岛礁海洋环境预报
  1. 12月31日 11:47
  1. -----------------------------------
  1. 江苏元旦假期晴暖如春 多地遭“跨年雾霾”
  1. 12月31日 10:58
  1. -----------------------------------
  1. 下月将上演四大天象 金星月亮低空相约肉眼可见
  1. 12月31日 15:36
  1. (其实这个地方还有很多呢,先略去了)
  1. Process finished with exit code 0
 
 
三、还有问题:
  1. 这个地方一改就出问题了,这个应该是python的语法问题吧?其实我还没搞懂python的语法呢。。。
  1. 第二个自然就是为什么爬取另外一个网站时总是报错,在之后练习爬虫的时候还是要注意这个问题。
所以总结一下一句话:第一次爬虫成功了很有成就感,但是爬虫之博大精深又不是一下子就能搞完的,BeautifulSoup4下次我们再见。
@firstmiki 2016年12月31日16:44:29
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

转载于:https://my.oschina.net/firstmiki/blog/1483925

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值