Python爬虫小白学习心得(一

 文字功底差,只为了给自己付出了一段时候的学习做一个总结,让自己能够能Python爬虫的一些功力得以保存。

 就我个人而言,觉得有以下几点:

  一、必须要有python的基础知识,重点在字符串(string)、列表的迭代(iteration)和切片(slice),字典类型,For循环。

  二、了解熟悉HTML基础知识。这样就知道了父标签、子标签、兄弟标签等,对于快速定位甚是有用。

  三、Requests库中get和post对HTTP的请求方式获得response。另外了解返回的实例对象response.text(文本)和response.content(图片、视频等)的区别。

  四、BeautifulSoup中使用Find和Find_all方法提示想要的内容。如实例对象soup.find_all("div",class_="xxx")#注意class属性在这里有个下划线,要获取某属性的值如get('href')的用法。另外还需要了解soup.select的css选择器方法,最主要记住class属性用“."号代替,id用‘#’代替,如soup.select('.xxx')选择class属性为xxx的标签,soup.select('#xxx')同理,另外,就是组合使用,如soup.select('div[class='xxxx']'),最后使用for循环把值迭代出来。

  五、把获取到的内容写入文件,有写入txt、excel和数据库(mysql or nomysql)中。特别是在写入到MySQL中,要特别注意编码的问题,否则会报错,导致程序执行失败。

 在通过如pymysql模块进行连接的时候需要设置charset='utf8',如conn = pymsql.connect('localhost','root','root','db',charset='utf8')。在创建表的时候同样设置成utf8,如create table table_name( xxxxxxxx) character set utf8;。

 六、就是要在逐渐学习深入过程中,了解、理解、掌握正则表达式(Regular Expression),这是非常强大的东西,在很多语言中都会遇到这个东西,对提取想要的内容非常有帮助。

 七、最后就会接触到分布式爬虫,scrapy+xpath等强大到我们无法想象的更为简单的工具,但没有前面的基础这些空中楼阁都无从学起。



  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值