自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 BeautifulSoup实战之汽车配件爬取( 观察代码,为什么要用到try_except),原创不易,给个赞呗

小白文系列,仅供参考 .不封装函数,只要简单粗暴的获取数据即可,如果想要获取IP词,敬请留言~~~up主会努力优化.辛苦 原创,给个赞吧

2019-03-27 20:56:23 257

原创 网络爬虫之re和beautifulsoup结合实战之中关村手机资料爬取--傻瓜式写法(通俗易懂,请对比我的第一篇文章)

改进后的代码是我朋友写的,老少咸宜,通俗易懂. 我们只是分析没办法像真正的程序员那样把代码写的更加的优雅,简单,还请各位看官优化,改进.

2019-03-20 16:44:25 549 2

原创 BeautifulSoup的标准选择器法---find_all() / findAll()方法实战之全程无忧网页数据爬取

BeautifulSoup 有三种方法可以选择网页上的信息,为了降低被反爬的概率,我个人建议先复制网页源代码,对源码进行爬取尝试,如果是致力于程序员那就封装成函数. 今天介绍的是find()和 findAll()的嵌套使用方法.如有不足,恳请指出. 其实这段程序很早之前就写了,有很多可以改进的地方,比如标签选择和标准选择可以更灵活的组合,当时没有考虑那么多.

2019-03-20 16:17:09 911 1

原创 中关村手机资料之数据清洗---2(深入了解str.extract()和str.contains()方法)

import pandas as pdimport numpy as np#--标注列名data=pd.read_csv(r'phones.csv',engine='python')col=['index','name','cpu','battary','screen','frequency','camera','memory','storage','time','price']da...

2019-03-14 00:59:24 1261

原创 中关村手机资料之爬取---1

import reimport timeimport requestsfrom bs4 import BeautifulSoup as bsimport pandas as pdimport randomdef get_value(url): soup=bs(f,'html.parser') Dic={'NAME':[],'PRICE':[],'DATE':[]}...

2019-03-14 00:56:34 830 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除