自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 爬虫之网页解析——正则表达式、BeautifulSoup、xpath

解析内容 得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。 正则表达式处理 def get_zhushi_info(url): #urls='https://so.gushiwen.org/shiwen2017/ajaxshiwencont.aspx?id=45c396367...

2019-06-21 13:54:26 850

原创 爬虫之爬取古诗文网站

import pandas as pd import urllib.parse import urllib.request from lxml import etree import requests import re import time import os import random def get_zhushi_info(url): #urls='https://so.gu...

2019-06-21 13:48:51 977

原创 爬虫篇之IP被限制的方法

第一篇技术博客,记录自己渣渣的coding。在互联网公司的实习中,发现有些工作会相互重叠,但每写一次代码,都要重新百度一次,时间效率低下,记录在博客日后好温故而知新。 维护自己的IP池,并验证此IP能不能用,保存到csv文件当中。 缺点:由于爬取的是西刺代理IP,每个IP时间有限,很容易过期。 import requests import re import time import ...

2019-06-21 12:05:48 2452

原创 写给程序员丁大喵

大家好,我是丁大喵,是众多程序猿当中的一个,或是即将成为其中的一名 还没有完全入坑希望能有个大佬及时拉住我 第一篇博客,希望以后可以和互联网一起进步 嗷嗷嗷嗷,我是丁大喵

2017-11-14 15:33:36 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除