【代码收藏】爬取妹子签名和日志并邮件发送

作者:高野良
链接:https://www.zhihu.com/question/20899988/answer/58388759
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

#-*-coding:utf-8-*- #编码声明,不要忘记!
import requests  #这里使用requests,小脚本用它最合适!
from lxml import html    #这里我们用lxml,也就是xpath的方法

#豆瓣模拟登录,最简单的是cookie,会这个方法,80%的登录网站可以搞定
cookie = {} 

raw_cookies = ''#引号里面是你的cookie,用之前讲的抓包工具来获得

for line in raw_cookies.split(';'):
    key,value = line.split("=", 1)
    cookie[key] = value #一些格式化操作,用来装载cookies

#重点来了!用requests,装载cookies,请求网站
page = requests.get('#妹纸的豆瓣主页#',cookies=cookie)

#对获取到的page格式化操作,方便后面用XPath来解析
tree = html.fromstring(page.text)

#XPath解析,获得你要的文字段落!
intro_raw = tree.xpath('//span[@id="intro_display"]/text()')

#简单的转码工作,这步根据需要可以省略
for i in intro_raw:
    intro = i.encode('utf-8')

print intro #妹子的签名就显示在屏幕上啦

#接下来就是装载邮件模块,因为与本问题关联不大就不赘述啦~
爬虫入门
 
对爬虫有个明确的认识
在战略上藐视
  • 所有网站皆可爬
  • 框架不变
发送请求——获得页面——解析页面——下载内容——储存内容
在战术上重视 
  • 持之以恒,戒骄戒躁
  • 宏伟的目标,来让你有持续学习的动力 
我要爬整个豆瓣!...
我要爬整个草榴社区!
我要爬知乎各种妹子的联系方式*&^#%^$#
没有实操项目,真的很难有动力 
python基本
  • list,dict:用来序列化你爬的东西
  • 切片:用来对爬取的内容进行分割,生成
  • 条件判断(if等):用来解决爬虫过程中哪些要哪些不要的问题
  • 循环和迭代(for while ):用来循环,重复爬虫动作
  • 文件读写操作(open,close等):用来读取参数、保存爬下来的内容等
  • 编码常识(codecs等):非常关键,爬虫写熟了以后遇到的各种古怪问题
 
知识储备
网页的基本知识
  • HTML语言
  • 发包和收包的概念
  • js知识
分析语言
  • 正则表达式
  • XPATH
  • Beautifulsoup 
工具来辅助
  • F12 开发者工具
  • 抓包工具httpfox
  • XPATH CHECKER (火狐插件)
  • 正则表达测试工具
常用爬虫模块 
  • urllib
  • urllib2
  • requests
框架
  • scrapy
动态页面
  • selenium
  • phantomJS
验证码
  • PIL
  • opencv
  • pybrain
  • 打码平台
数据库
  • mysql
  • mongodb
  • sqllite
爬来的东西怎么用?
  • numpy 数据分析,类似matlab的模块
  • pandas 基于numpy的数据分析模块
进阶技术
  • 多线程、分布式


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值