算法工程师推薦:算法如何探尋我們的愛好邊界?

所以,我先注冊登錄了一下,然後在推薦內容的『更多』裡,我忽略了頭條置頂給我推薦的娛樂,健康,科技,體育和歷史五大分類,而是直接把列表拉到了最下方,關注了最小眾的『珍藏』領域。』

  3、資訊推薦類平臺沒可能終極只提供特定某一類內容給你看,由於這本質並不利於它自己的日活和時長,當你的頭條完全變成『珍藏頭條』後,也是一個用戶離開的時候。 

  大概從第五次刷新開始,珍藏類內容的比例終於開始變多(我為什麼要說終於),同時,推薦流裡泛起我未關注的珍藏類賬號發的內容,我會在內容互動後一並關注作者。珍藏這個品類,主要包含的就是文物和古玩類的內容,包括諸如書畫、錢幣和郵票等等之類的都算,而我個人對這個領域基本屬於全無所聞的狀態。)

算法工程师推薦:算法如何探尋我們的愛好邊界?( 解优人才网) 

  我判定這兩類內容會泛起,是基於算法的『協同過濾』,由於想精曉珍藏的領域背後需要非常了解文化和歷史類的知識,這樣纔有助於判定各種文物和古玩的價值,所以一個『珍藏興趣者』必定也得看文化和歷史的內容。 

  頭條App裡默認進入的推薦頁,前三位一般被國家重要新聞給佔據了,2條是默認置頂,1條是人民網這樣的官媒發布的熱門新聞,從位置上來說,從第四條開始纔算是經由算法推薦展現給你看的內容。他們將用戶分為兩組,一組是根據算法推薦選擇片子觀看的,叫做『跟隨組』;另一組是不理會算法推薦的片子,叫做『不理會組』。 

  第三遍仍是如斯。 

  6、相對算法推薦,過去報紙、雜志和門戶網站更有可能造成『信息繭房』一些,由於他們的內容本質上是由一群每天泡在一起相互影響的編纂們推薦給你的。也就是說,在不使用算法推薦的情況下,用戶的視野反而變窄得更快。頭條算法架構師曹歡歡曾表示:『我們會留一部門比例流量,探索用戶的愛好,好比每幾刷,或有一刷的位置就是探索用戶的愛好,推薦一些模型不確認用戶是不是感愛好,但是模型想探索一下,會有一些這樣的流量。而朋友圈的信息可能是最輕易造成『信息繭房』的,條件是你只通過朋友來獲得資訊和看法,但這個現象本質上這也只能算是『社交偏食』而已,自古以來人總傾向於和自己喜歡的人多打交道和聊天;

  5、要留意的是,傳統上我們常常提到的『信息繭房』並不是一種理論(theory),而是一種假設(hypothesis),至今仍未得到數據量化和案例的證實。 

  於是從新的一次下拉刷新開始,我做了這麼一件事:對頭條在推薦流裡給我的每一條珍藏類內容,都點擊進入文章,慢慢再慢慢地下拉到底部(當然我一個字也沒看進去),然後點贊,點珍藏,評論(一般就幾個字:真棒,好喜歡,不錯,之類的)。另一種是基於物品的(item-based),也即計算物品之間的相似性,假如片子C和片子D很相似,那麼喜歡片子C的人,可能也會喜歡片子D。 

 

  『一個喜歡鞋子的用戶,如果每次來商場都能快速買到自己喜歡的鞋子,用戶的單次消費就很開心,但終極用戶會減少來這個商場的消費次數(包括每次來商場逛的『用戶時長),除非他又產生了買鞋子的需求。他們發現:算法向『跟隨組』推薦的片子,一直要比向『不理會組』推薦的片子更加多元化。 

  在我第二次的刷新中,結果依然差未幾,珍藏只有一條,社會娛樂兩條,其它隨機的五類內容(與第一次的不同)各一條。要把用戶長期保存下來,就要穿透他的愛好,拓展他的視野,讓他衣服、飲食、看片子這些消費,都在商場裡完成。也就是說,根據算法的推薦選擇片子,然後進行打分,實在會讓算法更好地學習到你的喜好,並且給你推薦更多樣的電影;而假如不根據算法的推薦來看片子和打分,反而會讓算法給你推薦更窄的電影。 

 

  而且一般在前三條裡,必有一條是直接關注賬號發的珍藏內容,剩下兩條可能是相關人文歷史領域的內容或者還未關注的賬號發的珍藏類內容。 

  1、推薦算法在做的並不是以某一條內容去壓中你的愛好,而是以『組』為單位(10-20條)來測試你(身份標簽)、你可能會喜歡的內容(愛好標簽)和你當下的狀態(環境標簽),命不命中是一個概率游戲;由於要條條命中、甚至單條命中實在很難題,但以組為單位去看壓中過(1-2條)的概率,很有可能在90%以上。 

  (不外固然關注了珍藏的人,很大概率會關注文化和歷史類的內容,但反之貌似大概率未必,文化和歷史興趣者未必對古玩錢幣什麼的有愛好。 

  (解釋一下:常見的協同過濾算法有兩種,一種是基於用戶的(user-based),也即計算用戶之間的相似性,假如A和B的愛好相近,那麼A喜歡的片子,B也很有可能喜歡。好比你是一個美國政治自由派,你尋常可能既看自由派的媒體,也接觸到了守舊派的媒體,但是在向研究職員講演自己的媒體消費情況時,你只講演了自由派媒體,而躲藏了自己消費的守舊派媒體。 

  大概從第8次開始,珍藏類內容達到了30%的比例,而同時推薦流裡還開始泛起人文和歷史類的內容。經由這個十分極端(真實用戶不可能只在新聞資訊App裡盯著珍藏內容不放)但實在並不麻煩的實驗之後,我整體的感慨感染有以下幾點:

  不外,終極頭條給我的推薦比例卻沒有繼承增加,前10條裡,除了廣告比例進步(可能是覺得老用戶更能忍?),最多的時候仍是5-6條珍藏類相關內容,少的時候2-4條。 

  人們喜歡宣稱和堅持自己的人設,因此有時很難准確回憶自己的行為,造成了類似『幸存者偏差『的效應。 

  『研究者們選取了21個月的數據。 

  2、所以純以愛好推薦為基礎的產品,最難的是用戶前三次使用的時候,可能流失率很高、印象很差,後面基於用戶在內容消費上的需乞降行為為基礎,使用大概率會越來越順。』

  4、好比頭條架構師曹歡歡曾提到:『智慧算法工程師都不但願自己的用戶愛好窄化,就像沒有一個商場的經理,但願顧客每一次來到商場都只關注統一種別的商品。商場經理都但願顧客關注盡可能多的產品品類,算法工程師也但願用戶盡可能的拓展自己的愛好。 

 

  學術的研究結果當然值得參考,不外,假如是針對一個非常極真個內容消用度戶,推薦算法又會帶給他什麼呢?基於一個嚴謹的產品工作者的好奇心和動手欲,以及對這些題目的困惑,我買了一個新手機號,找了一臺沒有裝過頭條的廉價安卓測試機,開始了我的『反人類』探索之旅。 

  但這個時候,推薦算法反而是可以幫你進行繭房穿透的武器之一,並對抗由於年歲增長而導致的好奇心的衰減。 

  7、從認知心理學的角度來說,人類大眾一直難以避免的是『確認偏見』(confirmation bias),也即更願意相信自己已經認同的內容。 

  我的思路大概是這樣的:在頭條上只關注一個從體量上來說極其小眾的內容領域,逐步成為它的資深內容消費者,然後觀察在這個過程中,頭條會如何投喂我在這個愛好領域的偏好,以及最重要的,終極頭條是否會用這個領域的內容完全沈沒我,讓我只能看到這個領域的內容。 

  在第一次打開頭條的時候,我是一個空缺未登錄的狀態,還沒有任何操縱行為或關注任何賬號,頭條推薦頁給我的內容也是比較隨機的,相對以社會新聞和熱門內容為主,其他類內容隨機分布各一條。 

  好比在我作為一個『極致的珍藏興趣者』的數據反饋之下,頭條並未給我推的全是珍藏類內容,仍是保持了社會熱門新聞的比例,然後徐徐為我找到了文化和歷史內容,並在後期持續測試我的愛好邊界,不斷找到了可能和我作為一個『珍藏重度興趣者的用戶畫像』相匹配的內容(對收集有歷史價值的物品、及其相關交易極度感愛好、大概率是男性、注重傳統文化、春秋在估計在40歲以上),給我推薦了財經、科學、釣魚和攝生類相關的內容。但是對於頭條的機器算法來說,更好的推薦策略肯定是,給一個對文化和歷史有愛好標簽的用戶在推薦流裡偶然夾雜一條珍藏類內容,視乎其反饋來決定是否推薦更多。 

  8、文初提到的方可成的學術研究裡,還說到另一個原因解釋了人們為什麼會對『信息繭房』信認為真,那是由於我們的『心口不一』:人們會向研究職員過度講演自己常看的一些媒體(通常是和自己的立場相近的媒體),而沒有講演另一些自己也確實看過的媒體(和自己的意見相反的媒體)。』)

  這裡可以看出,盡管珍藏類內容如斯小眾,但頭條的算法依然找到了一批和我類似的『珍藏興趣者』,並把他們同樣愛看的『人文和歷史』內容推到了我的眼前(盡管比例還很小,各一條)。』 

  新聞實驗室的方可成老師在系統性地閱讀了近年來發表在國外一流學術期刊上的研究後發現:使用社交媒體和算法推薦App的人,並沒有顯著泛起視野變窄的現象,大多數人閱讀的內容依然有相稱的多樣性。我預測,賬號推薦上,頭條但願快速收攏以獲取你的關注關系,增強它App內部的連接,所以直接給你推已經關注過的同類賬號,但內容推薦上,頭條需要你進一步有更多反饋數據後,纔會逐步讓某一類內容更多佔據你的推薦流。 

  不外固然內容流裡珍藏內容未幾,但是在『他們也在用頭條的』橫向推人的流裡,泛起了這麼一個情況,左右滑動的區域內一共可以顯示10個賬號,其中有9個是珍藏類賬號。 

  最後,我把這個『極端珍藏興趣者』的身份堅持了兩周左右,天天重復十幾回到數十次不等的刷新,然後只對珍藏類內容進行點擊閱讀、評論、點贊、珍藏和關注。其中,必有2條以上是珍藏類強相關的內容(直接探討珍藏物本身),1-2兩條珍藏弱相關的文章(或我關注的珍藏領域賬號發布的其它領域內容),以及1-2條文化和歷史強相關內容,而剩下還有4-6條則都長短珍藏相關的內容。 

  關注完20人後,我還做了一件事,就是把珍藏標簽移到了最靠近推薦標簽的位置,這樣內容閱讀起來最利便,理論上,這也應該增強了系統判定給我推薦珍藏類內容的權重。學術上更常見的是概念是『信息覆信室(echo chamber)』和『過濾氣泡(filter bubble)』:人們在某些社交和新聞類產品裡更輕易聽到回聲和信息被過濾,但這不是類似繭房的完全束縛,也不代表『一個人的信息獲取不再多元』或『意見被單一來源的信息左右』。 

 算法到底讓我們的信息環境更閉塞,仍是更多元?機器讓推薦和投遞更輕易了,但我們比以前懂了更多嗎?這個世界本身是否就像是一套算法,只提供應你需要的東西,這套算法本身是否也在進化?

極端實驗:推薦算法如何探尋我們的愛好邊界?

。但整個世界實在一直在滾滾向著多元化的一面發展,用戶和內容在多元化,算法實在也在多元化。  

  看起來,推薦算法並不會泛起10條裡9條都是珍藏類內容的情況。 

  我判定頭條並不由於我只是關注了一堆珍藏類賬號,就判定我只對珍藏類的內容感愛好了,由於我每次只是在推薦流裡刷下來看標題,還沒有跟任何的珍藏文章之間產生互動(轉評贊),也沒有和其他類的內容有過互動,所以我的推薦流裡一直保持了這樣的比例:10%的珍藏類內容+不斷更換的其它類內容。 

  在第一次的刷新中,頭條好像還沒有給我打上很強的"珍藏興趣者『的標簽,整個前10條就一條和珍藏相關的,剩下9條裡,除了兩條社會新聞兩條娛樂新聞,其它五類內容各一條。  
  從這裡也可以看出,對於薦人和薦內容,頭條可能是采用分開的兩套策略。  

 

  同時,我還一次性關注了頭條推薦的20個珍藏類的內容創作賬號。 

 

  說回我的實驗,我在刷新後『對每條珍藏類內容給予重度反饋然後忽略其它一切內容』的行為很快獲得了算法的高度正視,珍藏類內容從比例來看快速昇高,最多的時候達到了每10條裡有6條珍藏強相關的內容,大概1-2條人文或者歷史的內容,剩下2條仍是社會熱門和娛樂新聞。 

 

  假如你只和自己聊得來的人交朋友和聊天,且只看自己認同的內容,堅持相稱長一段時間後(封鎖環境不被打破),那麼他還真有可能無窮接近信息繭房狀態,只不外這個繭房是一種作繭自縛。

转载于:https://my.oschina.net/u/4166384/blog/3076578

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值