- 博客(12)
- 资源 (5)
- 收藏
- 关注
原创 5-2 接口的定义和实现
main.gopackage mainimport ( "fmt" "retriever/mock" "retriever/real")type Retriever interface { Get(url string) string}func download(r Retriever) string { return r....
2020-01-31 23:11:13 154
转载 Golang爬取网页数据时403
情景:浏览器通过url能正常访问,但是使用http.get请求报403修改前的实现func Fetcher(url string) ([]byte, error) { resp, err := http.Get(url) if err != nil { return nil, err } defer resp.Body.Close() if resp.StatusCod...
2020-01-31 12:15:19 517
原创 14-2 正则表达式
https://city.zhenai.com/打开网页,右键检查,在console中,$('#app>article>dl')可以得到css元素package mainimport ( "regexp" "fmt")const text = `My email is flliuqi@didiglobal.comemail is abc@def...
2020-01-21 20:58:01 229
原创 14-1 获得初始页面内容
编码库gopm get -g -v golang.org/x/textgopm get -g -v golang.org/x/net/html
2020-01-21 20:43:00 231
原创 第17章分布式爬虫-17-1 分布式系统简介
17-1 分布式系统简介技术难点:突破反爬虫机制,如何遵循robots协议 ,如何去模拟用户登陆 ,如何从页面获取有价值信息,动态页面如何处理。这门课程不讲。本课程分布式爬虫,如何处理分发爬取的任务。...
2020-01-21 17:37:58 168
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人